Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
И, вдогонку, признаки хорошо организованной статистической системы:
1. Данные на первом месте (data-first). Это основной тип продуктов, вся остальная деятельность статслужбы должна быть вторичны.
2. Данные доступны в современных статистических (JSON-Stat, SDMX) или аналитических (Parquet) форматах. Или, как минимум, в CSV, JSON, XML с документацией схемы данных.
3. Все метаданных используемые в статбазах и публикациях систематизированы и ведутся в системе управления метаданными, с регулярными обновлениями.
4. Данные доступны с максимально возможной глубиной, с момента ведения переписей, сбора официальной статистики.
5. Доступ ко всем статданным и базам данных возможен через API
6. Все данные доступны для массовой выгрузки, без необходимости запрашивать по API тысячи индикаторов, но с возможностью скачать их целиком.
7. Исторические статистические сборники оцифрованы, доступны
8. Абсолютно все статистические сборники вначале публикуются онлайн и печатаются только в режиме печати по требованию
9. Статистические сборники для публикации в вебе создаются как интерактивные истории в модели data storytelling
10. Статистические отчеты, если они создаются как PDF файлы, являются книгами и публикуются только в случае значимых смысловых документов, но не для печати таблиц имеющихся в статистических базах данных
11. Статистику имеющую геопространственную привязку должна быть возможность увидеть на интерактивной карте.
12. Вся геопространственная статистика должна быть доступна как открытые данные и открытые OGC совместимые точки подключения к API WFS, WMS
13. Доступ к статистике осуществляется через каталог или поисковую систему по данным, включая таблицы, визуализацию, методологию и публикации.
14. Должна быть информационная политика дефрагментации данных. В рамках конкретной темы или отрасли должна быть возможность посмотреть или найти данные за любой период времени в любой форме, без необходимости искать в десятках статистических и ведомственных информационных системах.

#statistics #thoughts
В рубрике как это устроено у них официальная статистика Мексики ведётся Национальным институтом статистики и географии. Это довольно частое совмещение функций в латиноамериканских странах. Особенность мексиканской статистики в том что на официальном сайте де факто присутствует несколько каталогов публикаций/индикаторов/таблиц [1] каждый из которых можно рассматривать как каталоги данных и геоданных.

Например:
- 85+ тысяч датасетов с геоданными в разделе карт [2], преимущественно машиночитаемые
- 12+ тысяч статистических публикаций из которых около половины - это файлы Excel
- 20+ тысяч таблиц, данных, геоданных и микроданных в разделе массовой выгрузки (bulk download)
- 24+ тысячи индикаторов в банке индикаторов с их машиночитаемой выгрузкой

и другие данные в разделе открытых данных [6].

Для полного счастья нехватает только чтобы все эти данные были упакованы в единый дата каталог, но даже в текущем виде всё довольно неплохо организовано.

Ссылки:
[1] https://www.inegi.org.mx/siscon/
[2] https://en.www.inegi.org.mx/app/mapas/
[3] https://www.inegi.org.mx/app/publicaciones/
[4] https://en.www.inegi.org.mx/app/descarga/
[5] https://en.www.inegi.org.mx/app/indicadores/
[6] https://www.inegi.org.mx/datosabiertos/

#opendata #mexico #statistics
В The Economist статья The British state is blind [1] о том что статслужба Великобритании неправильно считала миграцию в страну и сильно её занижала. По оценкам с 2019 года, как минимум, был недооценён въезд около 1 миллиона мигрантов.

Статья под пэйволом, но есть копии её текста [2].

Тут бы, конечно, сдержаться от саркастического смеха, но сложно.

Чем отличается британская статслужба от других? Только тем что попались и эту ошибку признают. Почему мы полагаем что другие официальные стат агентства работают лучше или что их данные достовернее? Официальная статистика во многих странах уже достаточно давно в кризисе. Во многих неразвитых и развивающихся странах всё ещё полно технических и методических вопросов хотя бы по основным статпоказателям, а во многих развитых странах альтернативные источники данных становятся приоритетнее,

А думаете статистика в вашей стране не врёт?

Ссылки:
[1] https://www.economist.com/britain/2024/12/04/the-british-state-is-blind
[2] https://us6.campaign-archive.com/?e=35defdcd70&u=1a990feb5c&id=c349203b07#mctoc4

#statistics #data #migration #uk
В рубрике закрытых данных Росстат прекратил публикацию оценок месячных оборотов розницы по компонентам о чём пишет Коммерсант в статье от 12 декабря [1].

От себя добавлю что одна из сложностей в мониторинге исчезновения данных Росстата, в том что большая часть их публикацией - это не данные как данные, а таблицы как документы HTML, Word, реже Excel. Хочется сказать что спасибо что не сканированные PDF, но в целом это вызывает оторопь как и совершенно жуткая фрагментация публикаций. Нужно буквально знать где что лежит на сайте Росстата потому что так просто не найти, даже через внешний поиск сложно найти.

Поэтому отследить исчезновение их материалов могут, как правило, те кто работает с ними постоянно.

Ну и похоже что пора архивировать официальный сайт Росстата и другие их ресурсы. Просто чтобы была архивная копия, на всякий случай.

Правда, если сайт ещё можно сохранить, то с их BI системой [2] или с витринами данных [3] или с ЕМИСС [4] всё куда сложнее.

Витрины изначально были устроены так что требуют отдельного скрипта для сбора данных, BI система вообще не приспособлена к этому, а ЕМИСС с виду кажется что вот они данные, только качай, только публикация открытых данных сделана там через ... не через голову, в общем. То что выводится на страницах и то что опубликовано в разделе открытых данных - не бьются. Тоже требуется код чтобы полноценно собирать эти данные.

Ссылки:
[1] https://www.kommersant.ru/doc/7364997
[2] https://bi.gks.ru
[3] https://showdata.gks.ru
[4] https://fedstat.ru

#opendata #closeddata #russia #statistics
Каждый имеет право на ответ (с)

Публикую текст от пресс-секретаря Росстата по ситуации с доступностью данных о розничных продажах.

#opendata #rosstat #statistics #russia
В рубрике как это устроено у них European Health Information Gateway [1] портал данных Всемирной организации здравоохранения (WHO) на котором опубликованы десятки наборов данных с данными по статистике здравоохранения, целевым исследованиям, мониторингу и отчётам по европейским странам. Причём к Европе там отнесены и Турция, и Россия, и Армения и страны Центральной Азии. По каждой из стран доступно множество индикаторов и есть возможность работать с этими данными с помощью API [2].

Сам сайт представлен на двух языках, английском и русском, что тоже нестандартно для сайтов структур ООН, обычно там или только английский, или набор основных языков ООН.

Для тех кто ищет региональные данные не обязательно отправляться на сайт WHO, можно обратить внимание на их региональные порталы с данными. Другие примеры таких порталов по регионам:
- data.wpro.who.int - Western Pacific [3]
- opendata.paho.org - Americas [4]
- hip.searo.who.int - South-East Asia [5]

и так далее. Среди них европейский портал сделан существенно лучше, там, и удобное API,и отдельно датасеты и отдельно индикаторы.

Ссылки:
[1] https://gateway.euro.who.int/en/
[2] https://gateway.euro.who.int/en/api/
[3] https://data.wpro.who.int/
[4] https://opendata.paho.org/en
[5] https://hip.searo.who.int/dhis/dhis-web-commons/security/login.action

#opendata #datasets #europe #statistics #healthcare
В рубрике как это устроено у них портал статистики Резервного банка Индии Database on Indian Economy [1] на котором публикуются сотни индикаторов и статистических данных страны и более тысячи таблиц в общей сложности.

Большая часть индикаторов годовые и квартальные, но есть и дневные и еженедельные показатели [2]. Портал отличается тем что совмещает визуализацию данных с возможностью получить в машиночитаемой форме через систему запросов к базе данных [3].

Из плюсов:
- много индикаторов
- есть оперативные показатели (до суток)
- централизованный поиск
- получение данных в CSV формате

Из минусов:
- нет документированного API (недокументированное есть)
- нет поддержки SDMX
- нет возможности массовой выгрузки (bulk download)

Если говорить объективно, то это очень консервативная штука сделанная на базе SAP BI и объективно неудобная, но на фоне многих других баз индикаторов в Индии она не так уже плоха.

Ссылки:
[1] https://data.rbi.org.in/#/dbie/home
[2] https://data.rbi.org.in/#/dbie/indicators
[3] https://data.rbi.org.in/#/dbie/dataquery_enhanced

#opendata #datasets #datacatalogs #statistics #india
В рубрике закрытых российских данных Росавиация опубликовала общую статистику за 2023 год [1] и убрала с своего сайта все архивные данные статистики начиная с 2010 года в виде файлов и статистику на 2021-2022 годы. Они доступны теперь только в веб архив е [2]. Также на официальном сайте более недоступны статистика перевозки пассажиров и статистика перевоза грузов и почты по авиакомпаниям. Они, также, теперь есть только в архиве Интернет-архива [3] включая исторические данные с 2010 года.

Лично я отдельной новости о закрытии этих сведений не нашёл, но произошло это относительно недавно. Последний раз архивная копия фигурирует за апрель 2024 года.

Всё это к вопросу о том зачем надо архивировать содержимое российских госсайтов.

Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-stat-dannie/
[2] https://web.archive.org/web/20240227060215/https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[3] https://web.archive.org/web/20240228103322/http://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/

#government #russia #diigitalpreservation #airtraffic #statistics
В рубрике как это работает у них отдельный интересный пример работы статслужб на примере Office for National Statistics в Великобритании.

У них сайт службы де-факто превращён в портал данных. Не идеальный, например, нет перечня вообще всего что опубликовано, но очень интересный, потому что хорошо структурирован по разделам и работать с ним удобно по предметным областям.

Вот у него есть, как минимум, три важных особенности:
1. Что кроме самих данных статслужбы что они обязаны публиковать, они ещё и публикуют то что у них запрашивают (!!). Идея за этим проста, есть запросы на публикацию сведений по FOI (Freedom of Information Requests) и если запрашиваемые данные не содержат ничего персонального то деньги налогоплательщиков тратятся на создание датасета и этот датасет должен быть общедоступен. Очень правильная идея в своей основе. [1]

2. У них есть каталог временных рядов на основе переписи [2] с более чем 66 тысячами рядов. Поиск по ним неидеален, даже географических фасетов нет, но и в текущем виде работает.

3. И у них есть портал для разработчиков [3] по работе со стат данными, в первую очередь переписи, что позволяет с тем же банков временных рядов работать через API.

Опять же идеализировать нельзя, много чего нет, например, нет экспорта каталога данных в DCAT, нет поддержки SDMX, документированное API охватывает не всё, многие наборы данных на сайте только в Excel формате, но вот перечисленные три особенности реально полезны.

Ссылки:
[1] https://www.ons.gov.uk/businessindustryandtrade/business/businessservices/datalist?page=1&filter=user_requested_data
[2] https://www.ons.gov.uk/timeseriestool
[3] https://developer.ons.gov.uk/

#opendata #statistics #uk #datasets #datacatalogs
Дашборд Германии (Dashboard Deutchland) [1] свежий проект германской статслужбы Destatis по визуализации ключевых индикаторов текущего состояния экономики.

Довольно простая и симпатичная штука со множеством панелей по разным областям с данными, в основном, с актуализацией в месяц, иногда с задержкой в 3 месяца.

Еженедельные и ежесуточные индикаторы тоже есть [2].

Плюс дают возможность зарегистрироваться и настроить личные дашборды.

А внутри используется открытое API того же Destatis и данные из других источников.

Ссылки:
[1] https://www.dashboard-deutschland.de/
[2] https://www.dashboard-deutschland.de/pulsmesser_wirtschaft/pulsmesser_wirtschaft_daily

#opendata #dataviz #germany #statistics #dashboards
zVRUz9MdbAr8FC4MOPDfsh07UgKAr8A6.pdf
571.5 KB
Свежая стратегия развития системы государственной статистики и Росстата до 2030 года с сайта Пр-ва РФ [1]. Там есть как хорошее, так и не очень. Я позже разберу его подробнее, а пока надеюсь найдутся те кто его проанализирует и изложит своё мнение.

Попыток реформировать статистику и Росстат было много, но я бы в российских реалиях сказал что успешность реформы зависит во многом от того какой политический вес будет иметь будущий глава Росстата. Пока Росстат остаётся "технической службой" зависящей от других ФОИВов и тд., без собственного голоса и влияния, мне трудно поверить в скорые качественные изменения.

Ссылки:
[1] http://government.ru/news/54008/

#opendata #regulation #russia #statistics
Я обещал написать развернутое мнение про свежую стратегию развития статистики и Росстата до 2030 года. Когда-нибудь доберусь до того чтобы написать прям подробно-подробно, но понял что это уже ближе к работе чем прокомментировать документ и фактически придётся описывать своё видение и собственную характеристику оценки российской статистики.

Я сфокусируюсь на кратких тезисах того что есть и того что нет:
1. О целях и рынке данных

В стратегии есть два пункта про доход и рынок данных. Первый присутствует на 15й странице отсутствие рынка государственных данных, который мог бы стать
источником дополнительных доходов для бюджета страны;

второй на 21 странице в целевых индикаторах
создан рынок государственных статистических данных,
удовлетворяющий пользовательские запросы на платной основе


Что важно про них понимать:
- де-факто Росстат и его территориальные управления и ранее поставляли данные и их ключевыми покупателями были региональные органы власти;
- рынок государственных данных - это не только и не то чтобы первично Росстат. Это давние разговоры про то что есть датасеты востребованные бизнесом и хорошо бы если бы их предоставление было бы на системной основе;
- к закрытию существующих данных это имеет меньшее отношение, это не про цензуру, а про монетизацию. Которая может быть как оправданной, в случаях сейчас недоступных данных которые будут доступны, но чаще не оправдана поскольку бьёт по малому и среднему бизнесу и возможностям журналистов и исследователей работать с данными.

Что важно - в документе нет ничего кроме этих фраз про форму развития этого рынка и про то что он мог бы стать вообще-то означает что мог бы и не стать. Потому что рынок данных может быть реализован множеством способов.

Это может быть:
a) Предоставление данных на платной основе отдельными ведомствами независимо
б) Наличие одного ведомства с маркетплейсом данных для продажи данных других ведомств.
в) Продажа данных через уполномоченных операторов (на самом деле предоставление доступа только уполномоченным операторам), а через них всему рынку. Такую модель применяют в ряде развитых стран вроде Австралии.

Из документа стратегии вообще непонятно каким этот рынок будет, какова в нём будет роль Росстата и вообще хоть что-то кроме этих слов. А ведь это, на минуточку, документ стратегии. Можно допустить предположение что будет через какое-то время отдельный закон или постановление о "маркетплейсе госданных" и в нем будет отсылка на эту стратегию, тогда эти слова про рынок немного понятнее.

2. Раздел II. Характеристика государственной статистики
в Российской Федерации и мире


Ключевое про этот раздел что он катастрофически неполон, как в части международного опыта так и российского. Про международный опыт я пишу здесь с завидной регулярностью, а вот относительно российского тут есть такой нюанс что официальная государственная статистика != Росстат. А в документе нет никаких цифр, хотя бы верхнеуровневых по числу сотрудников вовлеченных в создание ведомственной статистики, по числу ведомств, числу отчетных форм. Большой важный пробел.

В принципе этот раздел с описанием того как в мире и в России устроено был бы логичнее если бы был опубликован как отдельный подробный документ оценки текущего состояния официальной статистики в РФ. Но ничего такого я не видел как и опубликованных результатов аудита текущего состояния.

Самое главное, в характеристике текущего состояния нет ничего про деньги. Ни сколько на Росстат тратится, ни сколько тратится на ведомственную статистику, нет сравнения с другими странами сопоставимого размера/ВВП на душу населения/уровня доходов, нет вообще ничего про то сколько Росстат зарабатывает/зарабатывал денег и каким образом. Есть описания кадровых проблем, нет цифр текущей заработной платы и это справедливо ко всем обозначенным в стратегии вызовам.

Чуть позже я продолжу разбирать этот документ и напишу про остальное.

#statistics #regulation #russia
В продолжение разговора про обновлённую стратегию развития статистики и Росстата в РФ, очень в тему публикация в блоге Всемирного банка о мотивации и компетенции сотрудников статистических служб.

Там приведены результаты опросов сотрудников статслужб Латинской америки и Карибских стран, результаты такие что хотя 78% сотрудников готовы хорошо работать, но только 46% планируют остаться работать в статведомстве. Там, кстати, есть ссылка на опрос удовлетворенности госслужащих зарплатой и у статистиков она особенно низка.

Иначе говоря платят специалистам в этой области мало, чем они объективно недовольны и из-за чего компетенции страдают так как специалисты лучшей квалификации идут в бизнес и в другие госорганы.

И это один из наиболее ключевых вопросов во всех реформах статслужб в мире и на которых пока мало хороших решений.

Что я вижу из происходящего в мире:
1. Маргинализация статистических служб в странах где изначально официальная статистика была сомнительной. Например, некоторые африканские страны. И использование альтернативных источников для получения нужных показателей/индикаторов потенциальными их потребителями.
2. Попытки обновления статистических служб с сохранение их идентификации именно в такой роли. Как правило усложнённые как раз недофинансированием и отсутствием компетенций.
3. Трансформация статистических служб в государственные службы данных и дальнейшая их реформа с точки зрения обеспечения инфраструктуры работы и доступа к данным для госорганов, бизнеса и граждан.

Всё это сводится, в том числе, к вопросу лидерства подобных организаций. И для полноценной реформы статистики здесь есть всего 3 сценария:
1) Главой стат службы должен быть профессионал в области статистики с видением реформ и готовностью их проводить (из того что я знаю наиболее знающие люди в этой области на такую должность просто не пойдут).
2) Главой стат службы должен быть профессионал в области государственных данных и трансформировать службу в службу данных (в РФ не наблюдается такой тренд)
3) Присоединить (не подчинить, а присоединить) Росстат к Минцифры РФ (не выглядит пока реалистично)
4) Главой стат службы должен быть человек с сильным внутриполитическим влиянием который уже привлечёт остальных профессионалов в статистике и работе с данными.

Что такое этот четвертый вариант? Это как если бы главой статслужбы назначили Германа Грефа или Мишустин со словами "я устал, я мухожух" уходя с поста премьера лично занялся бы реформой Росстата, благо у него опыт автоматизации ФНС был вполне релевантный.

Вот тогда можно будет поверить что будут реальные и серьёзные изменения в российской официальной статистике.

В других странах ситуация другая. Во многих развивающихся странах статслужбы крайне бедны и многие их информационные системы были созданы в рамках поддержки от Всемирного банка и других международных организаций.

Тем не менее я лично ставлю на то что неизбежно официальные статистические службы будут или трансформироваться или интегрироваться в государственные органы отвечающие за политику работы с данными и их предоставление.


#regulation #statistics #policies #thoughts
В продолжение моих расхваливаний в адрес Parquet и DuckDB, приведу ещё один пример. Для задача Dateno я в последние дни анализирую большой датасет индикаторов статистики Всемирного банка из data.worldbank.org.

И вот, для справки, Всемирный банк предоставляет данные своих индикаторов не самым удобным образом. При многих достоинствах их данных, но там почти нет того что называется массовой выгрузкой, bulk download, и приходится выкачивать данные через API. Выгрузка этих данных по каждому индикатору - это около 22 ГБ в виде 3382 JSON файлов. Общим объёмом около 76 миллионов записей. Это не все, а примерно 12% всех индикаторов которые удалось проверить. Немного, на самом деле, но всё равно надо чуть-чуть заморочиться.

После преобразования этих файлов в один Parquet файл его размер составляет 44MB, а это 0.2% от исходного объёма. Опять же полученный файл не только сохраняет все возможности его анализа, но и этот анализ происходит куда быстрее.

Откуда такая эффективность? От того что данные индикаторов сильно денормалированы. Колоночное сжатие на них крайне эффективно. Жаль что Всемирный банк данные для массовой выгрузки до сих пор не публикует, хочется надеяться что когда-нибудь начнёт.

Но важный вывод тут ещё и в другом. Если кто-то из статистических служб и не только говорит о том что они не публикуют данные потому что они очень большие и рядовой пользователь не может с ними работать, то знайте что этот человек:
1) Или безграмотен.
2) Или целенаправленно врёт.

Кроме DuckDB и Parquet есть и другие инструменты сильно снижающие порог аналитической работы на недорогих устройствах.

#opendata #duckdb #statistics #parquet #worldbank