Ivan Begtin
8.09K subscribers
1.98K photos
3 videos
102 files
4.69K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике закрытых данных Росстат прекратил публикацию оценок месячных оборотов розницы по компонентам о чём пишет Коммерсант в статье от 12 декабря [1].

От себя добавлю что одна из сложностей в мониторинге исчезновения данных Росстата, в том что большая часть их публикацией - это не данные как данные, а таблицы как документы HTML, Word, реже Excel. Хочется сказать что спасибо что не сканированные PDF, но в целом это вызывает оторопь как и совершенно жуткая фрагментация публикаций. Нужно буквально знать где что лежит на сайте Росстата потому что так просто не найти, даже через внешний поиск сложно найти.

Поэтому отследить исчезновение их материалов могут, как правило, те кто работает с ними постоянно.

Ну и похоже что пора архивировать официальный сайт Росстата и другие их ресурсы. Просто чтобы была архивная копия, на всякий случай.

Правда, если сайт ещё можно сохранить, то с их BI системой [2] или с витринами данных [3] или с ЕМИСС [4] всё куда сложнее.

Витрины изначально были устроены так что требуют отдельного скрипта для сбора данных, BI система вообще не приспособлена к этому, а ЕМИСС с виду кажется что вот они данные, только качай, только публикация открытых данных сделана там через ... не через голову, в общем. То что выводится на страницах и то что опубликовано в разделе открытых данных - не бьются. Тоже требуется код чтобы полноценно собирать эти данные.

Ссылки:
[1] https://www.kommersant.ru/doc/7364997
[2] https://bi.gks.ru
[3] https://showdata.gks.ru
[4] https://fedstat.ru

#opendata #closeddata #russia #statistics
Много лет я писал что Гостех в РФ - это мертворождённый проект. Вначале от него отказались в Пр-ве Москвы, потом в Пр-ве Казахстана, а теперь и федералы слили его. Если честно в какой-то момент меня перестала беспокоить его судьба, потому что заниматься большими международными данными куда интереснее чем российская госинформатизация. Но тем не менее. Итог закономерный и это радует.

#russia #government #govtech
Каждый имеет право на ответ (с)

Публикую текст от пресс-секретаря Росстата по ситуации с доступностью данных о розничных продажах.

#opendata #rosstat #statistics #russia
В российском Форбс статья [1] о том что гос-во в лице Минцифры запланировало сбор "обезличенных геотреков" со всех сотовых операторов обо всех россиянах. В статье мой комментарий тоже есть, а я добавлю тезисов тут:
1. Надо понимать что государство ключевой маркетмейкер всего что касается закупки данных, сервисов и геоаналитики. Разговоры про сбор данных в госозеро - это де-факто национализация данных, отъём их от участников рынка и предоставление госсервисов на их основе. Госсервисов которые будут монопольны и поубивают частные потому что ни у одного сотового оператора такой базы не будет. Закончится это тем что государство, либо создаст отдельный бизнес юнит для торговли такими сервисами, или делегирует одному из имеющихся госАО, госГБУ, госАНО и тд. Как бы ни был "тяжёл" частный рынок, монополия будет хуже. Акции всех сотовых операторов и будущие доходы тоже просядут.
2. Что бы там не говорили про обезличивание по геотрекам очень просто восстановить информацию о конкретном человеке. Объектами слежки, чтобы кто там ни думал, будут не рядовые граждане, а сами же чиновники. Ничто не помешает приходящим в РФ к власти "консервативным силам" вычислить всех министров, замминистров, директоров департаментов нетрадиционной ориентации и ловить их во время очередного рейда по ночным клубам. Это и сейчас не так сложно, получая данные от сотовых операторов, но с геотреками будет ещё больше.

Я бы тут ещё много тезисов добавил, но не могу, сбоит внутренний переводчик с простого русского просторечного на русский публицистический. Но, в общем, все меня поняли;)

Ссылки:
[1] https://www.forbes.ru/tekhnologii/527832-mesta-znat-nado-gosudarstvo-hocet-sobirat-mobil-nye-geodannye-rossian-u-operatorov

#regulation #russia #privacy
В рубрике закрытых российских данных Росавиация опубликовала общую статистику за 2023 год [1] и убрала с своего сайта все архивные данные статистики начиная с 2010 года в виде файлов и статистику на 2021-2022 годы. Они доступны теперь только в веб архив е [2]. Также на официальном сайте более недоступны статистика перевозки пассажиров и статистика перевоза грузов и почты по авиакомпаниям. Они, также, теперь есть только в архиве Интернет-архива [3] включая исторические данные с 2010 года.

Лично я отдельной новости о закрытии этих сведений не нашёл, но произошло это относительно недавно. Последний раз архивная копия фигурирует за апрель 2024 года.

Всё это к вопросу о том зачем надо архивировать содержимое российских госсайтов.

Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-stat-dannie/
[2] https://web.archive.org/web/20240227060215/https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[3] https://web.archive.org/web/20240228103322/http://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/

#government #russia #diigitalpreservation #airtraffic #statistics
Немного отвлекаясь от сугубо технических тем и возвращаясь к сбору геотреков граждан государством в РФ, а ранее историям про госозеро и про огосударствление биометрических данных.

Помимо шуток и не шуток про тотальную слежку тут важно понимать что сама ситуация абсолютно уникальная. Я лично не знаю ни одну страну где государство де-факто национализировало бы данные бизнеса в таких количествах. Обычно всё происходит иначе и взаимоотношения гос-ва и дата-корпораций состоит из 3-х частей:
1) Корпорации и общественность лоббируют доступность тех или иных госданных которые предоставляются по разным моделям: открытые данные, доверенные операторы, покупка и продажа и тд.
2) Власти принуждают корпорации отдавать свои данные рынку, через антимонопольное давление, через программы по обмену данными (data sharing), через иные формы поощрения использования и предоставления данных
3) Спецслужбы/разведки разными непубличными способами взаимодействуют с крупнейшими сборщиками и операторами данных для решения госзадач в их ведении.

Собственно первые два типа взаимоотношений мы регулярно наблюдаем, про третий тип иногда происходят утечки, но в целом это то как мир развивается.

В России всё происходит иначе. Государство в лице фед. пр-ва шаг за шагом национализирует даже не просто базы данных, а целые блоки общественной жизни которые находятся у разного рода владельцев, дата корпораций и тд. и далее может раздавать эти данные кому надо. Скорее всего тем кто окажется ближе к лицам принимающающим решения.

Данные дата-корпораций становятся из их актива в государственный ресурс сдачи и раздачи. Мне это напоминает описанное в книгах Симона Гдальевича Кордонского, но перенесённое из физического пространства, в цифровое. Цифровые компании превращаются в цифровых бояр (или помещиков), оказываются во всё большей зависимости от федеральной власти, должны жить по определённым правилам игры не все из которых изложены нормативно.

Усиливаться эти цифровые бояре могут только путём приобретения адм. ресурса и укрупнением. Собственно подобное развитие отношений государство-бизнес, вместе с другими факторами, естественно ведёт к чеболизации всей этой сферы.

Честно говоря у меня каких-либо выводов нет, современный цифровой государственный патернализм стремительно набирает обороты, и пока какой-то большой цифровой катастрофы не произойдёт, то и шансов на то что этот процесс остановится или замедлится, нет.

P.S. Хочется добавить что такими темпами цифровая катастрофа неизбежна как один из чёрных лебедей который поломает цифровую инфраструктуру и что всё это выглядит довольно хрупко, но, думаю, что это и так очевидно.

#thoughts #russia #privacy
Сегодня буквально на полчаса была доступна новая версия портала data.gov.ru, но очень быстро снова оказалось закрытой для проведения аттестационных мероприятий.

Даже несколько десятков минут было достаточно чтобы составить впечатление и мне так много что есть сказать об этом, что в короткий формат Telegram канала не уложиться ну никак.

Когда портал "оживёт" я подробно разберу его в рассылке на Substack.

Я ранее там разбирал портал открытых данных Узбекистана, а в телеграм канале писал про особенности портала открытых данных Кыргызстана.

А также несколько раз уже писал про отсутствие портала открытых данных в Казахстане.

Пришла пора и про российский портал рассказать когда (или если?) он оживёт вновь.

#opendata #data #russia #datacatalogs
Андрей Анненков на D-Russia хорошо пишет [1] про ФГИС для удовлетворения... культурно-языковых потребностей. Почитайте, там много разумного и всё по делу. Лично я стараюсь всё меньше комментировать российскую внутреннюю автоматизацию без контекста того что происходит в других странах.

Так что я добавлю следующее:
1. В мире много инициатив по сохранению лингистических и культурных-языковых материалов, включая онлайн словари и не исключая сервисы проверки языка на простоту, понятность и так далее.
2. Из наиболее заметных я бы выделил PlainLanguage.gov госпроект в США с инструкциями и материалами о том как чиновникам писать тексты просто, ясно, понятно и грамотно. Ничего сверхвеликого в нём нёт, но всё разумно.
3. Другой пример - это европейский проект CLARIN, вернее множество проектов с более чем 900 тысячами языковых ресурсов для работы профессиональных лингвистов. Их аудитория не массовая, но профессиональная, зато вовлеченная в создание текстовых ресурсов для обучения ИИ, к примеру.
4. Практически всё что создаётся в рамках этой ФГИС можно заменить на создание наборов данных. Там нет ничего, я ещё раз подчеркну, ничего ценного кроме этого. Если бы датасеты словарей были доступны и обновлялись бы не раз в 5 лет, а раз в месяц, то поверьте нашлись бы команды которые бы интегрировали эти данные и сделали бы удобные интерфейсы в некоммерческих и коммерческих продуктах.
5. Давайте опишу альтернативный сценарий. Выложить данные датасетами на портале data.gov.ru, на сайте правительства, да где угодно и через Фонд Президентских грантов раздать гранты для исследователей.
6. В целом все что там описано модулями - это не модули, а открытые исследовательские или открытые образовательные ресурсы. Вернее это то как это должно быть
7. Не могу не напомнить о том о чём я писал 2.5 года назад, о новой языковой экономике в Испании [2]. Если кратко, то испанское правительство вкладывает реально огромные деньги в открытые языковые ресурсы, датасеты, модели, исследования. Примеры результатов? Языковые корпусы выложенные в Hugging Face
8. И, немаловажно, что в России языковые ресурсы созданные за деньги государства все являются закрытыми. Национальный корпус русского языка [3] вынесен в отдельное НКО, хотя и разрабатывался преимущественно за бюджетные средства, на нём нет открытых данных, нет открытого API, нет свободного использования, а если он уже окончательно стал коммерческим, то нет инвестиций государства в создание открытых альтернатив.

Даже не знаю что добавить, выводы можно сделать самостоятельно.

Ссылки:
[1] https://d-russia.ru/fgis-dlja-udovletvorenija-kulturno-jazykovyh-potrebnostej.html
[2] https://yangx.top/begtin/4157
[3] https://ruscorpora.ru

#opendata #russia #spending #language #russianlanguage
В рубрике закрытых в России данных открытые данные Государственного каталога музейного фонда [1] на портале открытых данных Минкультуры РФ не обновлялись с сентября 2023 года, почти полтора года.

В виде сайта эти данные доступны на goskatalog.ru [2] и, похоже, там эти данные обновляются поскольку количественно объектов там больше чем на портале открытых данных в этом датасете.

Это, конечно, печальное известие потому как с точки зрения организации доступа к данным именно этот ресурс Минкультуры был сделан лучшем чем большая часть порталов открытых данных в России. Печально если он окончательно помирает, впрочем новости там не публикуются с 2021 года, датасеты потихоньку исчезают, а теперь и не обновляются.

Ссылки:
[1] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[2] https://goskatalog.ru

#opendata #culture #russia #closeddata
zVRUz9MdbAr8FC4MOPDfsh07UgKAr8A6.pdf
571.5 KB
Свежая стратегия развития системы государственной статистики и Росстата до 2030 года с сайта Пр-ва РФ [1]. Там есть как хорошее, так и не очень. Я позже разберу его подробнее, а пока надеюсь найдутся те кто его проанализирует и изложит своё мнение.

Попыток реформировать статистику и Росстат было много, но я бы в российских реалиях сказал что успешность реформы зависит во многом от того какой политический вес будет иметь будущий глава Росстата. Пока Росстат остаётся "технической службой" зависящей от других ФОИВов и тд., без собственного голоса и влияния, мне трудно поверить в скорые качественные изменения.

Ссылки:
[1] http://government.ru/news/54008/

#opendata #regulation #russia #statistics
Я обещал написать развернутое мнение про свежую стратегию развития статистики и Росстата до 2030 года. Когда-нибудь доберусь до того чтобы написать прям подробно-подробно, но понял что это уже ближе к работе чем прокомментировать документ и фактически придётся описывать своё видение и собственную характеристику оценки российской статистики.

Я сфокусируюсь на кратких тезисах того что есть и того что нет:
1. О целях и рынке данных

В стратегии есть два пункта про доход и рынок данных. Первый присутствует на 15й странице отсутствие рынка государственных данных, который мог бы стать
источником дополнительных доходов для бюджета страны;

второй на 21 странице в целевых индикаторах
создан рынок государственных статистических данных,
удовлетворяющий пользовательские запросы на платной основе


Что важно про них понимать:
- де-факто Росстат и его территориальные управления и ранее поставляли данные и их ключевыми покупателями были региональные органы власти;
- рынок государственных данных - это не только и не то чтобы первично Росстат. Это давние разговоры про то что есть датасеты востребованные бизнесом и хорошо бы если бы их предоставление было бы на системной основе;
- к закрытию существующих данных это имеет меньшее отношение, это не про цензуру, а про монетизацию. Которая может быть как оправданной, в случаях сейчас недоступных данных которые будут доступны, но чаще не оправдана поскольку бьёт по малому и среднему бизнесу и возможностям журналистов и исследователей работать с данными.

Что важно - в документе нет ничего кроме этих фраз про форму развития этого рынка и про то что он мог бы стать вообще-то означает что мог бы и не стать. Потому что рынок данных может быть реализован множеством способов.

Это может быть:
a) Предоставление данных на платной основе отдельными ведомствами независимо
б) Наличие одного ведомства с маркетплейсом данных для продажи данных других ведомств.
в) Продажа данных через уполномоченных операторов (на самом деле предоставление доступа только уполномоченным операторам), а через них всему рынку. Такую модель применяют в ряде развитых стран вроде Австралии.

Из документа стратегии вообще непонятно каким этот рынок будет, какова в нём будет роль Росстата и вообще хоть что-то кроме этих слов. А ведь это, на минуточку, документ стратегии. Можно допустить предположение что будет через какое-то время отдельный закон или постановление о "маркетплейсе госданных" и в нем будет отсылка на эту стратегию, тогда эти слова про рынок немного понятнее.

2. Раздел II. Характеристика государственной статистики
в Российской Федерации и мире


Ключевое про этот раздел что он катастрофически неполон, как в части международного опыта так и российского. Про международный опыт я пишу здесь с завидной регулярностью, а вот относительно российского тут есть такой нюанс что официальная государственная статистика != Росстат. А в документе нет никаких цифр, хотя бы верхнеуровневых по числу сотрудников вовлеченных в создание ведомственной статистики, по числу ведомств, числу отчетных форм. Большой важный пробел.

В принципе этот раздел с описанием того как в мире и в России устроено был бы логичнее если бы был опубликован как отдельный подробный документ оценки текущего состояния официальной статистики в РФ. Но ничего такого я не видел как и опубликованных результатов аудита текущего состояния.

Самое главное, в характеристике текущего состояния нет ничего про деньги. Ни сколько на Росстат тратится, ни сколько тратится на ведомственную статистику, нет сравнения с другими странами сопоставимого размера/ВВП на душу населения/уровня доходов, нет вообще ничего про то сколько Росстат зарабатывает/зарабатывал денег и каким образом. Есть описания кадровых проблем, нет цифр текущей заработной платы и это справедливо ко всем обозначенным в стратегии вызовам.

Чуть позже я продолжу разбирать этот документ и напишу про остальное.

#statistics #regulation #russia
Для тех кто хочет поработать с относительно небольшими открытыми данными в области культуры по ссылке доступен слепок Госкаталога музейного фонда РФ в формате Parquet (3GB) преобразованный из слепка датасета в 78GB с портала данных Минкультуры.

Для тех кто захочет поделать интересных запросов к этим данным вот тут их примеры которые я приводил на семинаре и которые можно делать с помощью DuckDB.
Подчеркну что с файлами Parquet и DuckDB работать можно на недорогих ноутбуках, настольных компьютерах и тд., загружать эти данные на сервер нет необходимости.

Серия запросов по объединению наиболее тяжелых экспонатов по весу и получению отсортированного списка предметов по весу в любом измерении
1. copy (select name, museum.name, weight/1000 as weight from 'data.parquet' where weightUnit = '{"name":"килограммы"}' order by weight desc) to 'heavy_kg_to_tonn.csv';
2. copy (select name, museum.name, weight/100000 as weight from 'data.parquet' where weightUnit = '{"name":"граммы"}' order by weight desc) to 'heavy_gramm.csv';
3. copy (select name, museum.name, weight from 'data.parquet' where weightUnit = '{"name":"тонны"}' order by weight desc) to 'heavy_tonn.csv';
4. select * from read_csv(['heavy_kg_to_tonn.csv', 'heavy_tonn.csv']) order by weight desc;

Рейтинг музеев по качеству заполнения описания (поле description) во внесённых элементах каталога

select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where len(description) = 0 group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;

Рейтинг музеев по качеству заполнения invNumber (инвентарный номер) во внесённых элементах каталога

select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where invNumber = '' group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;

#opendata #russia #parquet #duckdb
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.

В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #opengov #russia #datasets #digitalpreservation #webarchives