Ivan Begtin
8.04K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Вдогонку к новости от ИПП про датасет российского законодательства, не могу не порадоваться его появлению, ИПП одни из немногих кто создаёт качественные датасеты и публикует их ещё и в parquet формате. Реально ценный датасет для исследователей и моя любимая тема - измерение качества баз нормативных документов и законотворческой деятельности. Раз 5 я подступался к запуску публичного проекта в этой области, но каждый раз убеждался что политизации избежать сложно (невозможно!) и единственный способ подачи материалов, это вот такие датасеты.

А я покажу Вам живой пример как его использовать с помощью DuckDB. Благо пример у меня был уже готов по другой базе, тоже законов, и его надо было лишь слегка адаптировать.

Итак, скачиваете все parquet файлы, запускаете DuckDB в одной с ними папке и выполняете вот такой, не самый сложный SQL Запрос:
select count(num) as n_open, max(num) as n_total, (n_total-n_open) as n_closed, (n_open*100.0/n_total) as percent_open, year(parsed_date) as y from (select CAST(split_part(docNumberIPS, '-', 1) as INTEGER) a
s num, strptime(docdateIPS, '%d.%m.%Y') as parsed_date from 'ruslawod_*.parquet' where issuedByIPS = 'Распоряжение Правительства Российской Федерации' order by parsed_date) group by y order by y desc;

-
Результат будет как на картинке. По этой таблице можно построить графики:
- общего числа принятых распоряжений Правительства РФ по годам
- числа распоряжений которые были опубликованы
- числа распоряжений которые не были опубликованы (секретны)
- доля открытых текстов распоряжений.

Можно увидеть что:
1. Доля распоряжений резко нарастает в последние 2 года
2. Число закрытых/секретных распоряжений значительно выросло, в 2.1 раза с 2020 г.
3. Доля открытых распоряжений снизилась с 81% в 2020 году до 63% в 2023 г.

По другим типам НПА можно проделать такой же фокус и увидеть много интересного. Например, измеряя рост нормативной нагрузки по объёмам опубликованных НПА определённого типа.

В добавок, в качестве добрых пожеланий, датасет можно улучшить если изменить его типы данных внутри с varchar на более естественные для формата parquet. Превратить поля docdateIPS и actual_datetimeIPS в датувремя, поля classifierByIPS и keywordsByIPS в списки varchar, is_widely_used в boolean.

Впрочем и без этого с данными можно работать.

#opendata #datasets #russia #laws
Для тех кто хочет поработать с данными из OS Places по России, на Хаб открытых данных выложен датасет в формате parquet на 3 096 012 точек [1] и общим объёмом 309 мегабайт.

Ожидаемо, у тех точек где есть привязка к региону, более всего точек у Москвы и Санкт-Петербурга. А вообще датасет можно использовать и для проверки алгоритмов повышения качества данных потому что у более чем половины точек, к примеру, нет указания региона, города и адреса, только координаты.

Датасет большой, идей по его применению может быть очень много

Ссылки:
[1] https://hubofdata.ru/dataset/ru-os-places

#opendata #russia #geodata #datasets
В рубрике закрытых данных в РФ с 2023 года перестал работать домен rosrid.ru на котором были доступны научные работы из ЕГИСУ НИОКТР (Единая государственная информационная система учета. научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) и вместо него теперь работает сайт gisnauka.ru [1].

Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].

Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.

Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew

#opendata #closeddata #russia #openaccess
Читаю в Российской газете про идею создания научного дата-хаба [1] и думаю как это прокомментировать.

Начну с того что для его создания регулирования не нужно, необходимо лишь чтобы ключевые органы власти и ряд учреждений сдали бы туда данные и чтобы ими можно было пользоваться. Это вопрос не регулирования, а как принято говорить "политической воли" или, если угодно, "государственного насилия" в отношении государственных же структур не участвующих в обмене данными.

И поэтому, разговоры про регулирование стоит воспринимать как опасный звоночек потому что не имея возможность потребовать от госорганов и госкорпораций данные, пр-во начнет регулировать бизнес сдавать данные в этот дата хаб. Вот тут регулирование нужно в полный рост, но это уже плохая форма государственного принуждения, выгодная только ограниченному числу ИИ компаний и ряду госорганов.

Ссылки:
[1] https://rg.ru/2024/11/25/rossijskij-ii-obuchat-na-otechestvennyh-dannyh.html

#opendata #data #ai #regulation #russia
Свежее регулирование выдачи сертификатов российского НУЦ [1] предполагающее выдачу сертификатов национального удостоверяющего центра веб сайтам/сервисам и это к вопросу о том когда сайты российских госорганов и госучреждений начнут выпадать из поисковиков Google, Bing, а также более не архивироваться в Интернет Архиве.

Из интернет архива многие госсайты уже повыпадали [2] [3] [4] и многие другие могут исчезнуть в будущем.

Я бы сказал что уже давно переходить к архивации всех сайтов российских госорганов, но задача эта не только трудоёмкая, но и финансово затратная - на оборудование и на хранение, пока мы своими силами в рамках Национального цифрового архива [5] не решили. Нехватает времени/ресурсов даже нормальный каталог заархивированного сделать.

Но острота проблемы с недоступностью и потенциальной потерей контента не снимается.

Ссылки:
[1] https://yangx.top/ep_uc/2981
[2] https://web.archive.org/web/20240000000000*/https://minjust.gov.ru
[3] https://web.archive.org/web/20240000000000*/https://rkomi.ru
[4] https://web.archive.org/web/20240000000000*/https://www.mnr.gov.ru
[5] https://ruarxive.org

#digitalpreservation #webarchival #russia
Написал большой текст про особенности российской официальной статистики
Российская статистика: немашиночитаемая институциональная фрагментация
в этот раз там не столько про машиночитаемость, и даже не столько про цифровизацию Росстата, сколько про его территориальные подразделения и про гигантское дробление данных и публикаций которые они создают.

Я не стал этого добавлять в большой текст, добавлю здесь. В среднем на сайте терр. органа Росстата опубликовано от 500 до 2000 документов, примерно такое же число публикаций выпущенных ими на бумаге. Если все эти документы собрать вместе то был бы каталог от 50 до 200 тысяч статистических публикаций и это было бы даже каталогом данных, наполовину,уж точно.

Но этого никогда не будет до тех пор пока подразделения Росстата торгуют данными.

#opendata #data #statistics #russia
Пишут что российское Минцифры предложило запретить использование иностранных мессенджеров в рабочих целях [1].

Очень трудно удержаться от того чтобы такое не прокомментировать. А что после этого и других подобных инициатив удивительно что все квалифицированные ИТ спецы кто могут стараются не работать из России и уезжают, кто далеко, кто недалеко? Я готов поспорить что есть прямая корреляция между запретами на коммуникацию, а также любыми ограничениями вызванными политической целесообразностью и профессиональной деятельностью.

Неважно где это происходит, в России, в Турции, или ещё в каких странах.

Государство не должно лезть в твою постель, в твой телефон и в твою голову.

P.S. И в твои данные, конечно же, тоже.

Ссылки:
[1] https://www.interfax.ru/russia/996664

#russia #government
В рубрике закрытых данных в РФ с декабря 2021 года с портала данных Министерства культуры РФ [1] исчезло 8 наборов данных. Было 62 [2], а стало 54 на начало декабря 2024 г. Новости портала не обновлялись также с середины 2021 года [3]

Хорошая новость в том что оставшиеся наборы данных пока ещё обновляются.

А когда-то это был один из лучших порталов открытых данных в России. Говорю как человек которые уже пересмотрел тысячи сайтов с открытыми данными.

Ссылки:
[1] https://opendata.mkrf.ru/opendata
[2] https://web.archive.org/web/20211130053406/https://opendata.mkrf.ru/opendata
[3] https://opendata.mkrf.ru/item/newslist

#closeddata #data #opendata #russia #culture
В рубрике закрытых данных Росстат прекратил публикацию оценок месячных оборотов розницы по компонентам о чём пишет Коммерсант в статье от 12 декабря [1].

От себя добавлю что одна из сложностей в мониторинге исчезновения данных Росстата, в том что большая часть их публикацией - это не данные как данные, а таблицы как документы HTML, Word, реже Excel. Хочется сказать что спасибо что не сканированные PDF, но в целом это вызывает оторопь как и совершенно жуткая фрагментация публикаций. Нужно буквально знать где что лежит на сайте Росстата потому что так просто не найти, даже через внешний поиск сложно найти.

Поэтому отследить исчезновение их материалов могут, как правило, те кто работает с ними постоянно.

Ну и похоже что пора архивировать официальный сайт Росстата и другие их ресурсы. Просто чтобы была архивная копия, на всякий случай.

Правда, если сайт ещё можно сохранить, то с их BI системой [2] или с витринами данных [3] или с ЕМИСС [4] всё куда сложнее.

Витрины изначально были устроены так что требуют отдельного скрипта для сбора данных, BI система вообще не приспособлена к этому, а ЕМИСС с виду кажется что вот они данные, только качай, только публикация открытых данных сделана там через ... не через голову, в общем. То что выводится на страницах и то что опубликовано в разделе открытых данных - не бьются. Тоже требуется код чтобы полноценно собирать эти данные.

Ссылки:
[1] https://www.kommersant.ru/doc/7364997
[2] https://bi.gks.ru
[3] https://showdata.gks.ru
[4] https://fedstat.ru

#opendata #closeddata #russia #statistics
Много лет я писал что Гостех в РФ - это мертворождённый проект. Вначале от него отказались в Пр-ве Москвы, потом в Пр-ве Казахстана, а теперь и федералы слили его. Если честно в какой-то момент меня перестала беспокоить его судьба, потому что заниматься большими международными данными куда интереснее чем российская госинформатизация. Но тем не менее. Итог закономерный и это радует.

#russia #government #govtech
Каждый имеет право на ответ (с)

Публикую текст от пресс-секретаря Росстата по ситуации с доступностью данных о розничных продажах.

#opendata #rosstat #statistics #russia
В российском Форбс статья [1] о том что гос-во в лице Минцифры запланировало сбор "обезличенных геотреков" со всех сотовых операторов обо всех россиянах. В статье мой комментарий тоже есть, а я добавлю тезисов тут:
1. Надо понимать что государство ключевой маркетмейкер всего что касается закупки данных, сервисов и геоаналитики. Разговоры про сбор данных в госозеро - это де-факто национализация данных, отъём их от участников рынка и предоставление госсервисов на их основе. Госсервисов которые будут монопольны и поубивают частные потому что ни у одного сотового оператора такой базы не будет. Закончится это тем что государство, либо создаст отдельный бизнес юнит для торговли такими сервисами, или делегирует одному из имеющихся госАО, госГБУ, госАНО и тд. Как бы ни был "тяжёл" частный рынок, монополия будет хуже. Акции всех сотовых операторов и будущие доходы тоже просядут.
2. Что бы там не говорили про обезличивание по геотрекам очень просто восстановить информацию о конкретном человеке. Объектами слежки, чтобы кто там ни думал, будут не рядовые граждане, а сами же чиновники. Ничто не помешает приходящим в РФ к власти "консервативным силам" вычислить всех министров, замминистров, директоров департаментов нетрадиционной ориентации и ловить их во время очередного рейда по ночным клубам. Это и сейчас не так сложно, получая данные от сотовых операторов, но с геотреками будет ещё больше.

Я бы тут ещё много тезисов добавил, но не могу, сбоит внутренний переводчик с простого русского просторечного на русский публицистический. Но, в общем, все меня поняли;)

Ссылки:
[1] https://www.forbes.ru/tekhnologii/527832-mesta-znat-nado-gosudarstvo-hocet-sobirat-mobil-nye-geodannye-rossian-u-operatorov

#regulation #russia #privacy
В рубрике закрытых российских данных Росавиация опубликовала общую статистику за 2023 год [1] и убрала с своего сайта все архивные данные статистики начиная с 2010 года в виде файлов и статистику на 2021-2022 годы. Они доступны теперь только в веб архив е [2]. Также на официальном сайте более недоступны статистика перевозки пассажиров и статистика перевоза грузов и почты по авиакомпаниям. Они, также, теперь есть только в архиве Интернет-архива [3] включая исторические данные с 2010 года.

Лично я отдельной новости о закрытии этих сведений не нашёл, но произошло это относительно недавно. Последний раз архивная копия фигурирует за апрель 2024 года.

Всё это к вопросу о том зачем надо архивировать содержимое российских госсайтов.

Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-stat-dannie/
[2] https://web.archive.org/web/20240227060215/https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[3] https://web.archive.org/web/20240228103322/http://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/

#government #russia #diigitalpreservation #airtraffic #statistics
Немного отвлекаясь от сугубо технических тем и возвращаясь к сбору геотреков граждан государством в РФ, а ранее историям про госозеро и про огосударствление биометрических данных.

Помимо шуток и не шуток про тотальную слежку тут важно понимать что сама ситуация абсолютно уникальная. Я лично не знаю ни одну страну где государство де-факто национализировало бы данные бизнеса в таких количествах. Обычно всё происходит иначе и взаимоотношения гос-ва и дата-корпораций состоит из 3-х частей:
1) Корпорации и общественность лоббируют доступность тех или иных госданных которые предоставляются по разным моделям: открытые данные, доверенные операторы, покупка и продажа и тд.
2) Власти принуждают корпорации отдавать свои данные рынку, через антимонопольное давление, через программы по обмену данными (data sharing), через иные формы поощрения использования и предоставления данных
3) Спецслужбы/разведки разными непубличными способами взаимодействуют с крупнейшими сборщиками и операторами данных для решения госзадач в их ведении.

Собственно первые два типа взаимоотношений мы регулярно наблюдаем, про третий тип иногда происходят утечки, но в целом это то как мир развивается.

В России всё происходит иначе. Государство в лице фед. пр-ва шаг за шагом национализирует даже не просто базы данных, а целые блоки общественной жизни которые находятся у разного рода владельцев, дата корпораций и тд. и далее может раздавать эти данные кому надо. Скорее всего тем кто окажется ближе к лицам принимающающим решения.

Данные дата-корпораций становятся из их актива в государственный ресурс сдачи и раздачи. Мне это напоминает описанное в книгах Симона Гдальевича Кордонского, но перенесённое из физического пространства, в цифровое. Цифровые компании превращаются в цифровых бояр (или помещиков), оказываются во всё большей зависимости от федеральной власти, должны жить по определённым правилам игры не все из которых изложены нормативно.

Усиливаться эти цифровые бояре могут только путём приобретения адм. ресурса и укрупнением. Собственно подобное развитие отношений государство-бизнес, вместе с другими факторами, естественно ведёт к чеболизации всей этой сферы.

Честно говоря у меня каких-либо выводов нет, современный цифровой государственный патернализм стремительно набирает обороты, и пока какой-то большой цифровой катастрофы не произойдёт, то и шансов на то что этот процесс остановится или замедлится, нет.

P.S. Хочется добавить что такими темпами цифровая катастрофа неизбежна как один из чёрных лебедей который поломает цифровую инфраструктуру и что всё это выглядит довольно хрупко, но, думаю, что это и так очевидно.

#thoughts #russia #privacy
Сегодня буквально на полчаса была доступна новая версия портала data.gov.ru, но очень быстро снова оказалось закрытой для проведения аттестационных мероприятий.

Даже несколько десятков минут было достаточно чтобы составить впечатление и мне так много что есть сказать об этом, что в короткий формат Telegram канала не уложиться ну никак.

Когда портал "оживёт" я подробно разберу его в рассылке на Substack.

Я ранее там разбирал портал открытых данных Узбекистана, а в телеграм канале писал про особенности портала открытых данных Кыргызстана.

А также несколько раз уже писал про отсутствие портала открытых данных в Казахстане.

Пришла пора и про российский портал рассказать когда (или если?) он оживёт вновь.

#opendata #data #russia #datacatalogs
Андрей Анненков на D-Russia хорошо пишет [1] про ФГИС для удовлетворения... культурно-языковых потребностей. Почитайте, там много разумного и всё по делу. Лично я стараюсь всё меньше комментировать российскую внутреннюю автоматизацию без контекста того что происходит в других странах.

Так что я добавлю следующее:
1. В мире много инициатив по сохранению лингистических и культурных-языковых материалов, включая онлайн словари и не исключая сервисы проверки языка на простоту, понятность и так далее.
2. Из наиболее заметных я бы выделил PlainLanguage.gov госпроект в США с инструкциями и материалами о том как чиновникам писать тексты просто, ясно, понятно и грамотно. Ничего сверхвеликого в нём нёт, но всё разумно.
3. Другой пример - это европейский проект CLARIN, вернее множество проектов с более чем 900 тысячами языковых ресурсов для работы профессиональных лингвистов. Их аудитория не массовая, но профессиональная, зато вовлеченная в создание текстовых ресурсов для обучения ИИ, к примеру.
4. Практически всё что создаётся в рамках этой ФГИС можно заменить на создание наборов данных. Там нет ничего, я ещё раз подчеркну, ничего ценного кроме этого. Если бы датасеты словарей были доступны и обновлялись бы не раз в 5 лет, а раз в месяц, то поверьте нашлись бы команды которые бы интегрировали эти данные и сделали бы удобные интерфейсы в некоммерческих и коммерческих продуктах.
5. Давайте опишу альтернативный сценарий. Выложить данные датасетами на портале data.gov.ru, на сайте правительства, да где угодно и через Фонд Президентских грантов раздать гранты для исследователей.
6. В целом все что там описано модулями - это не модули, а открытые исследовательские или открытые образовательные ресурсы. Вернее это то как это должно быть
7. Не могу не напомнить о том о чём я писал 2.5 года назад, о новой языковой экономике в Испании [2]. Если кратко, то испанское правительство вкладывает реально огромные деньги в открытые языковые ресурсы, датасеты, модели, исследования. Примеры результатов? Языковые корпусы выложенные в Hugging Face
8. И, немаловажно, что в России языковые ресурсы созданные за деньги государства все являются закрытыми. Национальный корпус русского языка [3] вынесен в отдельное НКО, хотя и разрабатывался преимущественно за бюджетные средства, на нём нет открытых данных, нет открытого API, нет свободного использования, а если он уже окончательно стал коммерческим, то нет инвестиций государства в создание открытых альтернатив.

Даже не знаю что добавить, выводы можно сделать самостоятельно.

Ссылки:
[1] https://d-russia.ru/fgis-dlja-udovletvorenija-kulturno-jazykovyh-potrebnostej.html
[2] https://yangx.top/begtin/4157
[3] https://ruscorpora.ru

#opendata #russia #spending #language #russianlanguage
В рубрике закрытых в России данных открытые данные Государственного каталога музейного фонда [1] на портале открытых данных Минкультуры РФ не обновлялись с сентября 2023 года, почти полтора года.

В виде сайта эти данные доступны на goskatalog.ru [2] и, похоже, там эти данные обновляются поскольку количественно объектов там больше чем на портале открытых данных в этом датасете.

Это, конечно, печальное известие потому как с точки зрения организации доступа к данным именно этот ресурс Минкультуры был сделан лучшем чем большая часть порталов открытых данных в России. Печально если он окончательно помирает, впрочем новости там не публикуются с 2021 года, датасеты потихоньку исчезают, а теперь и не обновляются.

Ссылки:
[1] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[2] https://goskatalog.ru

#opendata #culture #russia #closeddata
zVRUz9MdbAr8FC4MOPDfsh07UgKAr8A6.pdf
571.5 KB
Свежая стратегия развития системы государственной статистики и Росстата до 2030 года с сайта Пр-ва РФ [1]. Там есть как хорошее, так и не очень. Я позже разберу его подробнее, а пока надеюсь найдутся те кто его проанализирует и изложит своё мнение.

Попыток реформировать статистику и Росстат было много, но я бы в российских реалиях сказал что успешность реформы зависит во многом от того какой политический вес будет иметь будущий глава Росстата. Пока Росстат остаётся "технической службой" зависящей от других ФОИВов и тд., без собственного голоса и влияния, мне трудно поверить в скорые качественные изменения.

Ссылки:
[1] http://government.ru/news/54008/

#opendata #regulation #russia #statistics
Я обещал написать развернутое мнение про свежую стратегию развития статистики и Росстата до 2030 года. Когда-нибудь доберусь до того чтобы написать прям подробно-подробно, но понял что это уже ближе к работе чем прокомментировать документ и фактически придётся описывать своё видение и собственную характеристику оценки российской статистики.

Я сфокусируюсь на кратких тезисах того что есть и того что нет:
1. О целях и рынке данных

В стратегии есть два пункта про доход и рынок данных. Первый присутствует на 15й странице отсутствие рынка государственных данных, который мог бы стать
источником дополнительных доходов для бюджета страны;

второй на 21 странице в целевых индикаторах
создан рынок государственных статистических данных,
удовлетворяющий пользовательские запросы на платной основе


Что важно про них понимать:
- де-факто Росстат и его территориальные управления и ранее поставляли данные и их ключевыми покупателями были региональные органы власти;
- рынок государственных данных - это не только и не то чтобы первично Росстат. Это давние разговоры про то что есть датасеты востребованные бизнесом и хорошо бы если бы их предоставление было бы на системной основе;
- к закрытию существующих данных это имеет меньшее отношение, это не про цензуру, а про монетизацию. Которая может быть как оправданной, в случаях сейчас недоступных данных которые будут доступны, но чаще не оправдана поскольку бьёт по малому и среднему бизнесу и возможностям журналистов и исследователей работать с данными.

Что важно - в документе нет ничего кроме этих фраз про форму развития этого рынка и про то что он мог бы стать вообще-то означает что мог бы и не стать. Потому что рынок данных может быть реализован множеством способов.

Это может быть:
a) Предоставление данных на платной основе отдельными ведомствами независимо
б) Наличие одного ведомства с маркетплейсом данных для продажи данных других ведомств.
в) Продажа данных через уполномоченных операторов (на самом деле предоставление доступа только уполномоченным операторам), а через них всему рынку. Такую модель применяют в ряде развитых стран вроде Австралии.

Из документа стратегии вообще непонятно каким этот рынок будет, какова в нём будет роль Росстата и вообще хоть что-то кроме этих слов. А ведь это, на минуточку, документ стратегии. Можно допустить предположение что будет через какое-то время отдельный закон или постановление о "маркетплейсе госданных" и в нем будет отсылка на эту стратегию, тогда эти слова про рынок немного понятнее.

2. Раздел II. Характеристика государственной статистики
в Российской Федерации и мире


Ключевое про этот раздел что он катастрофически неполон, как в части международного опыта так и российского. Про международный опыт я пишу здесь с завидной регулярностью, а вот относительно российского тут есть такой нюанс что официальная государственная статистика != Росстат. А в документе нет никаких цифр, хотя бы верхнеуровневых по числу сотрудников вовлеченных в создание ведомственной статистики, по числу ведомств, числу отчетных форм. Большой важный пробел.

В принципе этот раздел с описанием того как в мире и в России устроено был бы логичнее если бы был опубликован как отдельный подробный документ оценки текущего состояния официальной статистики в РФ. Но ничего такого я не видел как и опубликованных результатов аудита текущего состояния.

Самое главное, в характеристике текущего состояния нет ничего про деньги. Ни сколько на Росстат тратится, ни сколько тратится на ведомственную статистику, нет сравнения с другими странами сопоставимого размера/ВВП на душу населения/уровня доходов, нет вообще ничего про то сколько Росстат зарабатывает/зарабатывал денег и каким образом. Есть описания кадровых проблем, нет цифр текущей заработной платы и это справедливо ко всем обозначенным в стратегии вызовам.

Чуть позже я продолжу разбирать этот документ и напишу про остальное.

#statistics #regulation #russia
Для тех кто хочет поработать с относительно небольшими открытыми данными в области культуры по ссылке доступен слепок Госкаталога музейного фонда РФ в формате Parquet (3GB) преобразованный из слепка датасета в 78GB с портала данных Минкультуры.

Для тех кто захочет поделать интересных запросов к этим данным вот тут их примеры которые я приводил на семинаре и которые можно делать с помощью DuckDB.
Подчеркну что с файлами Parquet и DuckDB работать можно на недорогих ноутбуках, настольных компьютерах и тд., загружать эти данные на сервер нет необходимости.

Серия запросов по объединению наиболее тяжелых экспонатов по весу и получению отсортированного списка предметов по весу в любом измерении
1. copy (select name, museum.name, weight/1000 as weight from 'data.parquet' where weightUnit = '{"name":"килограммы"}' order by weight desc) to 'heavy_kg_to_tonn.csv';
2. copy (select name, museum.name, weight/100000 as weight from 'data.parquet' where weightUnit = '{"name":"граммы"}' order by weight desc) to 'heavy_gramm.csv';
3. copy (select name, museum.name, weight from 'data.parquet' where weightUnit = '{"name":"тонны"}' order by weight desc) to 'heavy_tonn.csv';
4. select * from read_csv(['heavy_kg_to_tonn.csv', 'heavy_tonn.csv']) order by weight desc;

Рейтинг музеев по качеству заполнения описания (поле description) во внесённых элементах каталога

select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where len(description) = 0 group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;

Рейтинг музеев по качеству заполнения invNumber (инвентарный номер) во внесённых элементах каталога

select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where invNumber = '' group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;

#opendata #russia #parquet #duckdb