Я обещал написать развернутое мнение про свежую стратегию развития статистики и Росстата до 2030 года. Когда-нибудь доберусь до того чтобы написать прям подробно-подробно, но понял что это уже ближе к работе чем прокомментировать документ и фактически придётся описывать своё видение и собственную характеристику оценки российской статистики.
Я сфокусируюсь на кратких тезисах того что есть и того что нет:
1. О целях и рынке данных
В стратегии есть два пункта про доход и рынок данных. Первый присутствует на 15й странице отсутствие рынка государственных данных, который мог бы стать
источником дополнительных доходов для бюджета страны;
второй на 21 странице в целевых индикаторах
создан рынок государственных статистических данных,
удовлетворяющий пользовательские запросы на платной основе
Что важно про них понимать:
- де-факто Росстат и его территориальные управления и ранее поставляли данные и их ключевыми покупателями были региональные органы власти;
- рынок государственных данных - это не только и не то чтобы первично Росстат. Это давние разговоры про то что есть датасеты востребованные бизнесом и хорошо бы если бы их предоставление было бы на системной основе;
- к закрытию существующих данных это имеет меньшее отношение, это не про цензуру, а про монетизацию. Которая может быть как оправданной, в случаях сейчас недоступных данных которые будут доступны, но чаще не оправдана поскольку бьёт по малому и среднему бизнесу и возможностям журналистов и исследователей работать с данными.
Что важно - в документе нет ничего кроме этих фраз про форму развития этого рынка и про то что он мог бы стать вообще-то означает что мог бы и не стать. Потому что рынок данных может быть реализован множеством способов.
Это может быть:
a) Предоставление данных на платной основе отдельными ведомствами независимо
б) Наличие одного ведомства с маркетплейсом данных для продажи данных других ведомств.
в) Продажа данных через уполномоченных операторов (на самом деле предоставление доступа только уполномоченным операторам), а через них всему рынку. Такую модель применяют в ряде развитых стран вроде Австралии.
Из документа стратегии вообще непонятно каким этот рынок будет, какова в нём будет роль Росстата и вообще хоть что-то кроме этих слов. А ведь это, на минуточку, документ стратегии. Можно допустить предположение что будет через какое-то время отдельный закон или постановление о "маркетплейсе госданных" и в нем будет отсылка на эту стратегию, тогда эти слова про рынок немного понятнее.
2. Раздел II. Характеристика государственной статистики
в Российской Федерации и мире
Ключевое про этот раздел что он катастрофически неполон, как в части международного опыта так и российского. Про международный опыт я пишу здесь с завидной регулярностью, а вот относительно российского тут есть такой нюанс что официальная государственная статистика != Росстат. А в документе нет никаких цифр, хотя бы верхнеуровневых по числу сотрудников вовлеченных в создание ведомственной статистики, по числу ведомств, числу отчетных форм. Большой важный пробел.
В принципе этот раздел с описанием того как в мире и в России устроено был бы логичнее если бы был опубликован как отдельный подробный документ оценки текущего состояния официальной статистики в РФ. Но ничего такого я не видел как и опубликованных результатов аудита текущего состояния.
Самое главное, в характеристике текущего состояния нет ничего про деньги. Ни сколько на Росстат тратится, ни сколько тратится на ведомственную статистику, нет сравнения с другими странами сопоставимого размера/ВВП на душу населения/уровня доходов, нет вообще ничего про то сколько Росстат зарабатывает/зарабатывал денег и каким образом. Есть описания кадровых проблем, нет цифр текущей заработной платы и это справедливо ко всем обозначенным в стратегии вызовам.
—
Чуть позже я продолжу разбирать этот документ и напишу про остальное.
#statistics #regulation #russia
Я сфокусируюсь на кратких тезисах того что есть и того что нет:
1. О целях и рынке данных
В стратегии есть два пункта про доход и рынок данных. Первый присутствует на 15й странице отсутствие рынка государственных данных, который мог бы стать
источником дополнительных доходов для бюджета страны;
второй на 21 странице в целевых индикаторах
создан рынок государственных статистических данных,
удовлетворяющий пользовательские запросы на платной основе
Что важно про них понимать:
- де-факто Росстат и его территориальные управления и ранее поставляли данные и их ключевыми покупателями были региональные органы власти;
- рынок государственных данных - это не только и не то чтобы первично Росстат. Это давние разговоры про то что есть датасеты востребованные бизнесом и хорошо бы если бы их предоставление было бы на системной основе;
- к закрытию существующих данных это имеет меньшее отношение, это не про цензуру, а про монетизацию. Которая может быть как оправданной, в случаях сейчас недоступных данных которые будут доступны, но чаще не оправдана поскольку бьёт по малому и среднему бизнесу и возможностям журналистов и исследователей работать с данными.
Что важно - в документе нет ничего кроме этих фраз про форму развития этого рынка и про то что он мог бы стать вообще-то означает что мог бы и не стать. Потому что рынок данных может быть реализован множеством способов.
Это может быть:
a) Предоставление данных на платной основе отдельными ведомствами независимо
б) Наличие одного ведомства с маркетплейсом данных для продажи данных других ведомств.
в) Продажа данных через уполномоченных операторов (на самом деле предоставление доступа только уполномоченным операторам), а через них всему рынку. Такую модель применяют в ряде развитых стран вроде Австралии.
Из документа стратегии вообще непонятно каким этот рынок будет, какова в нём будет роль Росстата и вообще хоть что-то кроме этих слов. А ведь это, на минуточку, документ стратегии. Можно допустить предположение что будет через какое-то время отдельный закон или постановление о "маркетплейсе госданных" и в нем будет отсылка на эту стратегию, тогда эти слова про рынок немного понятнее.
2. Раздел II. Характеристика государственной статистики
в Российской Федерации и мире
Ключевое про этот раздел что он катастрофически неполон, как в части международного опыта так и российского. Про международный опыт я пишу здесь с завидной регулярностью, а вот относительно российского тут есть такой нюанс что официальная государственная статистика != Росстат. А в документе нет никаких цифр, хотя бы верхнеуровневых по числу сотрудников вовлеченных в создание ведомственной статистики, по числу ведомств, числу отчетных форм. Большой важный пробел.
В принципе этот раздел с описанием того как в мире и в России устроено был бы логичнее если бы был опубликован как отдельный подробный документ оценки текущего состояния официальной статистики в РФ. Но ничего такого я не видел как и опубликованных результатов аудита текущего состояния.
Самое главное, в характеристике текущего состояния нет ничего про деньги. Ни сколько на Росстат тратится, ни сколько тратится на ведомственную статистику, нет сравнения с другими странами сопоставимого размера/ВВП на душу населения/уровня доходов, нет вообще ничего про то сколько Росстат зарабатывает/зарабатывал денег и каким образом. Есть описания кадровых проблем, нет цифр текущей заработной платы и это справедливо ко всем обозначенным в стратегии вызовам.
—
Чуть позже я продолжу разбирать этот документ и напишу про остальное.
#statistics #regulation #russia
Telegram
Ivan Begtin
Свежая стратегия развития системы государственной статистики и Росстата до 2030 года с сайта Пр-ва РФ [1]. Там есть как хорошее, так и не очень. Я позже разберу его подробнее, а пока надеюсь найдутся те кто его проанализирует и изложит своё мнение.
Попыток…
Попыток…
В продолжение разговора про обновлённую стратегию развития статистики и Росстата в РФ, очень в тему публикация в блоге Всемирного банка о мотивации и компетенции сотрудников статистических служб.
Там приведены результаты опросов сотрудников статслужб Латинской америки и Карибских стран, результаты такие что хотя 78% сотрудников готовы хорошо работать, но только 46% планируют остаться работать в статведомстве. Там, кстати, есть ссылка на опрос удовлетворенности госслужащих зарплатой и у статистиков она особенно низка.
Иначе говоря платят специалистам в этой области мало, чем они объективно недовольны и из-за чего компетенции страдают так как специалисты лучшей квалификации идут в бизнес и в другие госорганы.
И это один из наиболее ключевых вопросов во всех реформах статслужб в мире и на которых пока мало хороших решений.
Что я вижу из происходящего в мире:
1. Маргинализация статистических служб в странах где изначально официальная статистика была сомнительной. Например, некоторые африканские страны. И использование альтернативных источников для получения нужных показателей/индикаторов потенциальными их потребителями.
2. Попытки обновления статистических служб с сохранение их идентификации именно в такой роли. Как правило усложнённые как раз недофинансированием и отсутствием компетенций.
3. Трансформация статистических служб в государственные службы данных и дальнейшая их реформа с точки зрения обеспечения инфраструктуры работы и доступа к данным для госорганов, бизнеса и граждан.
Всё это сводится, в том числе, к вопросу лидерства подобных организаций. И для полноценной реформы статистики здесь есть всего 3 сценария:
1) Главой стат службы должен быть профессионал в области статистики с видением реформ и готовностью их проводить (из того что я знаю наиболее знающие люди в этой области на такую должность просто не пойдут).
2) Главой стат службы должен быть профессионал в области государственных данных и трансформировать службу в службу данных (в РФ не наблюдается такой тренд)
3) Присоединить (не подчинить, а присоединить) Росстат к Минцифры РФ (не выглядит пока реалистично)
4) Главой стат службы должен быть человек с сильным внутриполитическим влиянием который уже привлечёт остальных профессионалов в статистике и работе с данными.
Что такое этот четвертый вариант? Это как если бы главой статслужбы назначили Германа Грефа или Мишустин со словами "я устал, я мухожух" уходя с поста премьера лично занялся бы реформой Росстата, благо у него опыт автоматизации ФНС был вполне релевантный.
Вот тогда можно будет поверить что будут реальные и серьёзные изменения в российской официальной статистике.
В других странах ситуация другая. Во многих развивающихся странах статслужбы крайне бедны и многие их информационные системы были созданы в рамках поддержки от Всемирного банка и других международных организаций.
Тем не менее я лично ставлю на то что неизбежно официальные статистические службы будут или трансформироваться или интегрироваться в государственные органы отвечающие за политику работы с данными и их предоставление.
#regulation #statistics #policies #thoughts
Там приведены результаты опросов сотрудников статслужб Латинской америки и Карибских стран, результаты такие что хотя 78% сотрудников готовы хорошо работать, но только 46% планируют остаться работать в статведомстве. Там, кстати, есть ссылка на опрос удовлетворенности госслужащих зарплатой и у статистиков она особенно низка.
Иначе говоря платят специалистам в этой области мало, чем они объективно недовольны и из-за чего компетенции страдают так как специалисты лучшей квалификации идут в бизнес и в другие госорганы.
И это один из наиболее ключевых вопросов во всех реформах статслужб в мире и на которых пока мало хороших решений.
Что я вижу из происходящего в мире:
1. Маргинализация статистических служб в странах где изначально официальная статистика была сомнительной. Например, некоторые африканские страны. И использование альтернативных источников для получения нужных показателей/индикаторов потенциальными их потребителями.
2. Попытки обновления статистических служб с сохранение их идентификации именно в такой роли. Как правило усложнённые как раз недофинансированием и отсутствием компетенций.
3. Трансформация статистических служб в государственные службы данных и дальнейшая их реформа с точки зрения обеспечения инфраструктуры работы и доступа к данным для госорганов, бизнеса и граждан.
Всё это сводится, в том числе, к вопросу лидерства подобных организаций. И для полноценной реформы статистики здесь есть всего 3 сценария:
1) Главой стат службы должен быть профессионал в области статистики с видением реформ и готовностью их проводить (из того что я знаю наиболее знающие люди в этой области на такую должность просто не пойдут).
2) Главой стат службы должен быть профессионал в области государственных данных и трансформировать службу в службу данных (в РФ не наблюдается такой тренд)
3) Присоединить (не подчинить, а присоединить) Росстат к Минцифры РФ (не выглядит пока реалистично)
4) Главой стат службы должен быть человек с сильным внутриполитическим влиянием который уже привлечёт остальных профессионалов в статистике и работе с данными.
Что такое этот четвертый вариант? Это как если бы главой статслужбы назначили Германа Грефа или Мишустин со словами "я устал, я мухожух" уходя с поста премьера лично занялся бы реформой Росстата, благо у него опыт автоматизации ФНС был вполне релевантный.
Вот тогда можно будет поверить что будут реальные и серьёзные изменения в российской официальной статистике.
В других странах ситуация другая. Во многих развивающихся странах статслужбы крайне бедны и многие их информационные системы были созданы в рамках поддержки от Всемирного банка и других международных организаций.
Тем не менее я лично ставлю на то что неизбежно официальные статистические службы будут или трансформироваться или интегрироваться в государственные органы отвечающие за политику работы с данными и их предоставление.
#regulation #statistics #policies #thoughts
Telegram
Ivan Begtin
Я обещал написать развернутое мнение про свежую стратегию развития статистики и Росстата до 2030 года. Когда-нибудь доберусь до того чтобы написать прям подробно-подробно, но понял что это уже ближе к работе чем прокомментировать документ и фактически придётся…
В продолжение моих расхваливаний в адрес Parquet и DuckDB, приведу ещё один пример. Для задача Dateno я в последние дни анализирую большой датасет индикаторов статистики Всемирного банка из data.worldbank.org.
И вот, для справки, Всемирный банк предоставляет данные своих индикаторов не самым удобным образом. При многих достоинствах их данных, но там почти нет того что называется массовой выгрузкой, bulk download, и приходится выкачивать данные через API. Выгрузка этих данных по каждому индикатору - это около 22 ГБ в виде 3382 JSON файлов. Общим объёмом около 76 миллионов записей. Это не все, а примерно 12% всех индикаторов которые удалось проверить. Немного, на самом деле, но всё равно надо чуть-чуть заморочиться.
После преобразования этих файлов в один Parquet файл его размер составляет 44MB, а это 0.2% от исходного объёма. Опять же полученный файл не только сохраняет все возможности его анализа, но и этот анализ происходит куда быстрее.
Откуда такая эффективность? От того что данные индикаторов сильно денормалированы. Колоночное сжатие на них крайне эффективно. Жаль что Всемирный банк данные для массовой выгрузки до сих пор не публикует, хочется надеяться что когда-нибудь начнёт.
Но важный вывод тут ещё и в другом. Если кто-то из статистических служб и не только говорит о том что они не публикуют данные потому что они очень большие и рядовой пользователь не может с ними работать, то знайте что этот человек:
1) Или безграмотен.
2) Или целенаправленно врёт.
Кроме DuckDB и Parquet есть и другие инструменты сильно снижающие порог аналитической работы на недорогих устройствах.
#opendata #duckdb #statistics #parquet #worldbank
И вот, для справки, Всемирный банк предоставляет данные своих индикаторов не самым удобным образом. При многих достоинствах их данных, но там почти нет того что называется массовой выгрузкой, bulk download, и приходится выкачивать данные через API. Выгрузка этих данных по каждому индикатору - это около 22 ГБ в виде 3382 JSON файлов. Общим объёмом около 76 миллионов записей. Это не все, а примерно 12% всех индикаторов которые удалось проверить. Немного, на самом деле, но всё равно надо чуть-чуть заморочиться.
После преобразования этих файлов в один Parquet файл его размер составляет 44MB, а это 0.2% от исходного объёма. Опять же полученный файл не только сохраняет все возможности его анализа, но и этот анализ происходит куда быстрее.
Откуда такая эффективность? От того что данные индикаторов сильно денормалированы. Колоночное сжатие на них крайне эффективно. Жаль что Всемирный банк данные для массовой выгрузки до сих пор не публикует, хочется надеяться что когда-нибудь начнёт.
Но важный вывод тут ещё и в другом. Если кто-то из статистических служб и не только говорит о том что они не публикуют данные потому что они очень большие и рядовой пользователь не может с ними работать, то знайте что этот человек:
1) Или безграмотен.
2) Или целенаправленно врёт.
Кроме DuckDB и Parquet есть и другие инструменты сильно снижающие порог аналитической работы на недорогих устройствах.
#opendata #duckdb #statistics #parquet #worldbank
Я совсем недавно несколько раз писал лонгриды в рассылке о том как работать со статистическими данными и как их публикуют:
- Статистика как дата продукт
- Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
- Российская статистика: немашиночитаемая институциональная фрагментация
А также много постов у меня тут в канале по хештегу #statistics
Однако я понял что у меня практически нет компактного тезисного текста о том что происходит со статистикой в мире и как она меняется, хотя бы в части работы с потребителями.
1. Основные направления развития статистических продуктов это:
- создание дашбордов по аналогии с корпоративными дашбордами (Dashboard Deutschland)
- создание инструментов самостоятельного построения визуализаций пользователями (visualize.admin.ch)
- превращение портала статслужбы в портал данных (ons.gov.uk)
- предоставление данных для массовой выгрузки (ECB Data Portal)
- использование форматов данных из data science таких как parquet (OpenDOSM)
- продвижение и развитие SDMX форматов и API (BIS Data Portal)
- предоставление статистики в режиме API-first (SingStat TableBuilder и многие другие)
- развитие публикации высокочастотных показателей вплоть до суток (порталы статистики центральных банков, BIS Data Portal)
- развитие экспериментальной статистики (Eurostat, IStat, Statistics Iceland)
2. Большая часть статистических порталов в мире индивидуальны. Из известного тиражируемого ПО можно выделить только:
- PxWeb - продукт разработанный статслужбой Швеции, активно используемый всеми скандинавскими странами и рядом других стран.
- .Stat Suite - теперь с открытым кодом. Используется статслужбой Австралии, ОЭСР и рядом стран.
- Fusion Metadata Registry - изначально разработан командой Банка международных расчётов, сейчас отдан на коммерциализацию. Является ядром для большей части публичных порталов данных отдающих статистику с SDMX совместимым API. Например, SDMX Registry Евростата
3. Всё большее число статистических ведомств создают и публикуют дата стратегии. Эти стратегии охватывают такие вопросы как:
- принципы работы с данными
- приоритеты
- стандарты и форматы обмена и публикации данными
- политики работы с данными
- источники получения данных
Примеры:
- ONS Data Strategy - стратегия работы с данными статслужбы Великобритании
- ABS Data Strategy 2021-22 to 2025 - стратегия работы с данными статслужбы Австралии
- Statistics Canada Data Strategy - дата-стратегия статслужбы Канады
4. В некоторых странах статслужбы отвечают за национальные порталы открытых данных:
- Новая Зеландия - глава статслужбы занимает позицию Government Chief Data Steward (GCDS) и определяет принципы развития и дорожную карту нац портала данных data.govt.nz
- Малайзия - национальный портал открытых данных data.gov.my переделан в портал статистики и дашбордов на основе портала статпоказателей open.dosm.gov.my статистического офиса страны.
5. Все коммерческие поставщики данных временных рядов активно игнорируют международные стандарты вроде SDMX и фокусируются, в первую очередь, на предоставлении данных через API (Nasdaq Data Link).
6. Всё что касается экспериментальной статистики - это то что в коммерческом секторе называется альтернативными данными. Их поставщиков много, они фокусируются на предоставлении их в тех форматах которые наиболее удобны потребителям. Чаще всего это API, датасеты или базы данных в облачных сервисах.
#opendata #statistics #sdmx #data #dataengineering
- Статистика как дата продукт
- Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
- Российская статистика: немашиночитаемая институциональная фрагментация
А также много постов у меня тут в канале по хештегу #statistics
Однако я понял что у меня практически нет компактного тезисного текста о том что происходит со статистикой в мире и как она меняется, хотя бы в части работы с потребителями.
1. Основные направления развития статистических продуктов это:
- создание дашбордов по аналогии с корпоративными дашбордами (Dashboard Deutschland)
- создание инструментов самостоятельного построения визуализаций пользователями (visualize.admin.ch)
- превращение портала статслужбы в портал данных (ons.gov.uk)
- предоставление данных для массовой выгрузки (ECB Data Portal)
- использование форматов данных из data science таких как parquet (OpenDOSM)
- продвижение и развитие SDMX форматов и API (BIS Data Portal)
- предоставление статистики в режиме API-first (SingStat TableBuilder и многие другие)
- развитие публикации высокочастотных показателей вплоть до суток (порталы статистики центральных банков, BIS Data Portal)
- развитие экспериментальной статистики (Eurostat, IStat, Statistics Iceland)
2. Большая часть статистических порталов в мире индивидуальны. Из известного тиражируемого ПО можно выделить только:
- PxWeb - продукт разработанный статслужбой Швеции, активно используемый всеми скандинавскими странами и рядом других стран.
- .Stat Suite - теперь с открытым кодом. Используется статслужбой Австралии, ОЭСР и рядом стран.
- Fusion Metadata Registry - изначально разработан командой Банка международных расчётов, сейчас отдан на коммерциализацию. Является ядром для большей части публичных порталов данных отдающих статистику с SDMX совместимым API. Например, SDMX Registry Евростата
3. Всё большее число статистических ведомств создают и публикуют дата стратегии. Эти стратегии охватывают такие вопросы как:
- принципы работы с данными
- приоритеты
- стандарты и форматы обмена и публикации данными
- политики работы с данными
- источники получения данных
Примеры:
- ONS Data Strategy - стратегия работы с данными статслужбы Великобритании
- ABS Data Strategy 2021-22 to 2025 - стратегия работы с данными статслужбы Австралии
- Statistics Canada Data Strategy - дата-стратегия статслужбы Канады
4. В некоторых странах статслужбы отвечают за национальные порталы открытых данных:
- Новая Зеландия - глава статслужбы занимает позицию Government Chief Data Steward (GCDS) и определяет принципы развития и дорожную карту нац портала данных data.govt.nz
- Малайзия - национальный портал открытых данных data.gov.my переделан в портал статистики и дашбордов на основе портала статпоказателей open.dosm.gov.my статистического офиса страны.
5. Все коммерческие поставщики данных временных рядов активно игнорируют международные стандарты вроде SDMX и фокусируются, в первую очередь, на предоставлении данных через API (Nasdaq Data Link).
6. Всё что касается экспериментальной статистики - это то что в коммерческом секторе называется альтернативными данными. Их поставщиков много, они фокусируются на предоставлении их в тех форматах которые наиболее удобны потребителям. Чаще всего это API, датасеты или базы данных в облачных сервисах.
#opendata #statistics #sdmx #data #dataengineering
К вопросу о том как устроена публикация данных в России и что с ней не так. Про портал data.gov.ru я и так часто писал, а вот пример в виде системы показателей ЕМИСС [1]. По всем признакам - это неплохая система публикации показателей. Там и экспорт в Excel есть, и формат SDMX есть, и раздел открытые данные есть на сайте и выглядит всё не так плохо. Казалось бы какая хорошая штука! Больше того у неё даже есть API, недокументированное правда.
Но когда-то несколько лет назад я делал углублённый анализ того как и что там происходит и результаты разочаровывающие.
Про проблемы того что данные/индикаторы исчезают оттуда уже многие писали, но проблема и в том как текущие данные там представлены. Вот несколько самых критичных проблем.
1. Самое критичное, по умолчанию все индикаторы показываются неполностью и не по актуальным данным. Открывая любой индикатор у можно увидеть не полный перечень значений, а те что отдаются в "отображении по умолчанию". Пример, в виде индикатора на картинке [2] открывая его последние значения за 2014 год. Это не значит что за другие годы значений нет, это значит что они по умолчанию не отображаются. Чтобы увидеть всё надо прокликать все фильтры и тогда уже смотреть или выгружать данные целиком. Это очень сильно влияет на всё что есть в этой системе - открытые данные, просмотр индикаторов и так далее.
2. Вид по умолчанию влияет на содержание того что на сайте называется открытыми данными. Данные того же индикатора при выгрузке из раздела открытых данных [3] будут включать только значения за из этого самого "отображения по умолчанию". Тем самым получается что если кто-то просто скачает открытые данные из раздела на портале ЕМИСС то там не будет актуальных данных.
3. Более того получение актуальных данных автоматически или как открытых данных или через недокументированное API вообще не предусмотрено. Чтобы их получить надо вручную или автоматически прокликать эти фильтры и не всякий неподготовленный пользователь это знает. Тем самым это дискредитирует сам портал для многих кто "не в теме".
4. И наконец, тоже важное, но не так как предыдущее. В этой системе нет нормализованных справочников. Там буквально сотни если не тысячи справочников, со своими кодами под каждый показатель. Например, нет гармонизированного справочника регионов. Вообще справочные данные никак не вынесены и не структурированы как в самой системе, так и вне её. Сопоставимость справочников низкая и требуется много ручной работы чтобы её проделать.
Обо всём этом я писал более чем 2 года назад в тексте Почему невозможно хвалить Росстат [4]. Мало что поменялось за эти годы.
Ссылки:
[1] https://fedstat.ru
[2] https://fedstat.ru/indicator/36984
[3] https://fedstat.ru/opendata/7708234640-threeasixanineaeightafour
[4] https://begtin.substack.com/p/22
#opendata #russia #statistics #rosstat
Но когда-то несколько лет назад я делал углублённый анализ того как и что там происходит и результаты разочаровывающие.
Про проблемы того что данные/индикаторы исчезают оттуда уже многие писали, но проблема и в том как текущие данные там представлены. Вот несколько самых критичных проблем.
1. Самое критичное, по умолчанию все индикаторы показываются неполностью и не по актуальным данным. Открывая любой индикатор у можно увидеть не полный перечень значений, а те что отдаются в "отображении по умолчанию". Пример, в виде индикатора на картинке [2] открывая его последние значения за 2014 год. Это не значит что за другие годы значений нет, это значит что они по умолчанию не отображаются. Чтобы увидеть всё надо прокликать все фильтры и тогда уже смотреть или выгружать данные целиком. Это очень сильно влияет на всё что есть в этой системе - открытые данные, просмотр индикаторов и так далее.
2. Вид по умолчанию влияет на содержание того что на сайте называется открытыми данными. Данные того же индикатора при выгрузке из раздела открытых данных [3] будут включать только значения за из этого самого "отображения по умолчанию". Тем самым получается что если кто-то просто скачает открытые данные из раздела на портале ЕМИСС то там не будет актуальных данных.
3. Более того получение актуальных данных автоматически или как открытых данных или через недокументированное API вообще не предусмотрено. Чтобы их получить надо вручную или автоматически прокликать эти фильтры и не всякий неподготовленный пользователь это знает. Тем самым это дискредитирует сам портал для многих кто "не в теме".
4. И наконец, тоже важное, но не так как предыдущее. В этой системе нет нормализованных справочников. Там буквально сотни если не тысячи справочников, со своими кодами под каждый показатель. Например, нет гармонизированного справочника регионов. Вообще справочные данные никак не вынесены и не структурированы как в самой системе, так и вне её. Сопоставимость справочников низкая и требуется много ручной работы чтобы её проделать.
Обо всём этом я писал более чем 2 года назад в тексте Почему невозможно хвалить Росстат [4]. Мало что поменялось за эти годы.
Ссылки:
[1] https://fedstat.ru
[2] https://fedstat.ru/indicator/36984
[3] https://fedstat.ru/opendata/7708234640-threeasixanineaeightafour
[4] https://begtin.substack.com/p/22
#opendata #russia #statistics #rosstat
В рубрике как это устроено у них новый портал данных Международного валютного фонда data.imf.org был открыт совсем недавно.
Из любопытного:
- добавилась публикация данных в форме наборов данных в разделе Datasets [1]
- обновился Data Explorer по данным статпоказателей [2]
- появился сквозной поиск одновременно по датасетам, таблицам, индикаторам и остальным объектам [3]
- появились дашборды (на базе PowerBI) [4]
- появилось новое SDMX API на базе Azure [5]
Из минусов и косяков:
- нет возможности скачать всё и сразу (bulk download), хотя частично это сделано с помощью датасетов в каталоге, но недоделано поскольку самого каталога нет в машиночитаемой форме
- нет данных в современных форматах и вообще экспорт не в CSV
- датасеты опубликованы без схем описания, нет ни Schema.org ни DCAT
- при просмотре временных рядов нельзя создать ссылку на конкретный временной ряд или отфильтрованную визуализацию
- API требует обязательной регистрации
Ссылки:
[1] https://data.imf.org/en/Datasets
[2] https://data.imf.org/en/Data-Explorer
[3] https://data.imf.org/en/Search-Results#q=Oil%20export&t=coveob02de888&sort=relevancy
[4] https://data.imf.org/en/dashboards/dip%20dashboard
[5] https://portal.api.imf.org/
#opendata #datasets #statistics #imf
Из любопытного:
- добавилась публикация данных в форме наборов данных в разделе Datasets [1]
- обновился Data Explorer по данным статпоказателей [2]
- появился сквозной поиск одновременно по датасетам, таблицам, индикаторам и остальным объектам [3]
- появились дашборды (на базе PowerBI) [4]
- появилось новое SDMX API на базе Azure [5]
Из минусов и косяков:
- нет возможности скачать всё и сразу (bulk download), хотя частично это сделано с помощью датасетов в каталоге, но недоделано поскольку самого каталога нет в машиночитаемой форме
- нет данных в современных форматах и вообще экспорт не в CSV
- датасеты опубликованы без схем описания, нет ни Schema.org ни DCAT
- при просмотре временных рядов нельзя создать ссылку на конкретный временной ряд или отфильтрованную визуализацию
- API требует обязательной регистрации
Ссылки:
[1] https://data.imf.org/en/Datasets
[2] https://data.imf.org/en/Data-Explorer
[3] https://data.imf.org/en/Search-Results#q=Oil%20export&t=coveob02de888&sort=relevancy
[4] https://data.imf.org/en/dashboards/dip%20dashboard
[5] https://portal.api.imf.org/
#opendata #datasets #statistics #imf
Почти совсем забытая рубрика закрытые данные в России и о России, но конкретно про эти данные я, похоже, не писал.
Статистика ЕАЭС [1] почти вся недоступна уже несколько лет, а та что есть актуальна на июнь 2023 года.
Разделы:
- Финансовая статистика [2] - требует авторизации
- Статистика внешней и взаимной торговли товарами [3] открывается, но все ссылки внутри требуют авторизации
- Социально-экономическая статистика [4] часть ссылок требуют авторизации, в остальных данные в последний раз за июнь 2023 года
И так со всеми остальными материалами в этом разрезе
P.S. Часть данных, всё же, находится на новом сайте ЕАЭС - https://eec.eaeunion.org/comission/department/dep_stat/union_stat/, но... не покидает ощущение что многие данные исчезли
Ссылки:
[1] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/union_stat/Pages/default.aspx
[2] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/fin_stat/Pages/default.aspx
[3] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/tradestat
[4] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/econstat
#russia #closeddata #opendata #statistics
Статистика ЕАЭС [1] почти вся недоступна уже несколько лет, а та что есть актуальна на июнь 2023 года.
Разделы:
- Финансовая статистика [2] - требует авторизации
- Статистика внешней и взаимной торговли товарами [3] открывается, но все ссылки внутри требуют авторизации
- Социально-экономическая статистика [4] часть ссылок требуют авторизации, в остальных данные в последний раз за июнь 2023 года
И так со всеми остальными материалами в этом разрезе
P.S. Часть данных, всё же, находится на новом сайте ЕАЭС - https://eec.eaeunion.org/comission/department/dep_stat/union_stat/, но... не покидает ощущение что многие данные исчезли
Ссылки:
[1] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/union_stat/Pages/default.aspx
[2] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/fin_stat/Pages/default.aspx
[3] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/tradestat
[4] http://www.eurasiancommission.org/ru/act/integr_i_makroec/dep_stat/econstat
#russia #closeddata #opendata #statistics
В рубрике как это устроено у них Статистика по топливной бедности в Великобритании [1] публикуется с 2010 года в форматах Excel и ODS и даёт информацию об уровне топливной бедности, доле домохозяйств с низкими доходами, низкой энергоэффективностью и высокими расходами на топливо. Датасет создаётся из данных English Housing Survey (EHS), регулярного опроса в Англии, на основе которого формируются эти цифры.
Его особенность - это субрегиональный срез до младшего муниципального уровня [2]. Это даёт возможность анализировать реальный уровень бедности на уровне Lower layer Super Output Area (LSOA). Объёмно данных всё ещё немного, это десятки тысяч записей, но для статистического анализа - это много.
Данных нет в CSV и других машиночитаемых форматах, но есть весьма стандартизированные Excel шаблоны.
У всей субрегиональной статистики обязательно указываются 9 значные коды ONS, например, E01000001 которые закодированы по общедоступному справочнику [3] и достаточно просто геокодируются на карту страны.
Ссылки:
[1] https://www.gov.uk/government/collections/fuel-poverty-statistics
[2] https://www.gov.uk/government/statistics/sub-regional-fuel-poverty-data-2025-2023-data
[3] https://opendatacommunities.org/data/lower-layer-super-output-areas/
#opendata #statistics
Его особенность - это субрегиональный срез до младшего муниципального уровня [2]. Это даёт возможность анализировать реальный уровень бедности на уровне Lower layer Super Output Area (LSOA). Объёмно данных всё ещё немного, это десятки тысяч записей, но для статистического анализа - это много.
Данных нет в CSV и других машиночитаемых форматах, но есть весьма стандартизированные Excel шаблоны.
У всей субрегиональной статистики обязательно указываются 9 значные коды ONS, например, E01000001 которые закодированы по общедоступному справочнику [3] и достаточно просто геокодируются на карту страны.
Ссылки:
[1] https://www.gov.uk/government/collections/fuel-poverty-statistics
[2] https://www.gov.uk/government/statistics/sub-regional-fuel-poverty-data-2025-2023-data
[3] https://opendatacommunities.org/data/lower-layer-super-output-areas/
#opendata #statistics
В рубрике как это устроено у них портал муниципальных данных стран ОЭСР (Local Dat Portal) [1] предоставляет детальную статистику по более чем 100 индикаторам и по всем странам входящим в ОЭСР. Портал появился в ноябре 2024 года и сделан на базе ProtoMap с динамической подгрузкой слоёв.
Ему предшествовал атлас ОЭСР по регионам и городам [2], не столь визуально приятный, но тоже полезный в своё время.
Данные доступны через раздел Regional, rural and urban development [3] на сайте статпортала ОЭСР и на самом сайте ОЭСР [4]
Ссылки:
[1] https://localdataportal.oecd.org
[2] https://www.oecd.org/en/data/tools/oecd-regions-and-cities-atlas.html
[3] https://data-explorer.oecd.org/?fs[0]=Topic%2C0%7CRegional%252C%20rural%20and%20urban%20development%23GEO%23&pg=0&fc=Topic&bp=true&snb=153
[4] https://www.oecd.org/en/data/datasets.html?orderBy=mostRelevant&page=0&facetTags=oecd-policy-areas%3Apa17
#opendata #statistics #geodata #oecd
Ему предшествовал атлас ОЭСР по регионам и городам [2], не столь визуально приятный, но тоже полезный в своё время.
Данные доступны через раздел Regional, rural and urban development [3] на сайте статпортала ОЭСР и на самом сайте ОЭСР [4]
Ссылки:
[1] https://localdataportal.oecd.org
[2] https://www.oecd.org/en/data/tools/oecd-regions-and-cities-atlas.html
[3] https://data-explorer.oecd.org/?fs[0]=Topic%2C0%7CRegional%252C%20rural%20and%20urban%20development%23GEO%23&pg=0&fc=Topic&bp=true&snb=153
[4] https://www.oecd.org/en/data/datasets.html?orderBy=mostRelevant&page=0&facetTags=oecd-policy-areas%3Apa17
#opendata #statistics #geodata #oecd
По поводу свежего документа с планом мероприятий по реализации Стратегии развития системы государственной статистики и Росстата до 2030 года [1] принятого распоряжением Правительства РФ 30 апреля.
Опишу тезисно и сжато по результатам беглого прочтения.
Положительное
- систематизация ведения статистики, в том числе разработка стандарта (мероприятие 6) и гармонизация справочников (мероприятия 7-10) и разработка стандарта качества (мероприятия 11-13).
- предоставление статистических микроданных для исследователей (мероприятие 40) в соответствии с разрабатываемым регламентом
- явным образом декларируется участие в международных мероприятиях и международной стандартизации статистического учёта
Нейтральное
- создание межведомственного совета по статучёту, пока неясно насколько это будет функциональная и продуктивная структура
- терминологически разведены блоки мероприятий "административных данных" и "больших данных", хотя административные данные по статистическим методологиям в мире относят к подвиду "больших данных".
- ведомственная статистика явным образом не упоминается, наиболее близкий к ней пункт, это мероприятие 8 формирование единого реестра первичных статистических показателей, статистических показателей и административных данных. Возможно она находится де-факто в этом пункте
- новая (?) платформа предоставления статистических данных в мероприятиях 48 и 49. Пока ничего неизвестно по тому как она будет создаваться и эксплуатироваться. Будут ли данные там общедоступны или доступны ограниченно.
- мероприятие по созданию общедоступного архива региональных статистических изданий (мероприятие 47). Нельзя отнести к положительному поскольку срок реализации поставлен на ноябрь 2029 года, в том время как оптимизация численности Росстата запланирована на конец 2027 года. Кроме того пункт 47 неконсистентен. Название упоминает любые архивные статданные, но результат предполагается оценивать только по региональным статданным.
Отрицательное
- полное отсутствие упоминание открытости, открытых данных. Предоставление данных статистики скрыто в разделе "Модернизация инструментов распространения статистических данных", но там упоминается смешение системы публикации показателей и геопространственного представления статистики, но не режим доступа к этой системе.
- полное отсутствие упоминаний системы ЕМИСС включая её возможную судьбу: развитие, вывод из эксплуатации, интеграцию в другую информационную систему
- неопределённый статус Цифровой аналитической платформы (ЦАП) Росстата. Она упоминается в мероприятии 1, но не как система сбора и представления статистики, а как система сбора предложений об актуализации статучёта
- о существовании подсистем информационно-вычислительной системы Федеральной службы государственной статистики мы узнаем только из мероприятия 52 по реализации мер инфобеза.
- отсутствуют мероприятия по оцифровке исторических документов и библиотеки Росстата (если она ещё существует). Это не только статистика, но и иные исторические материалы
- не определена стратегия развития сайта Росстата и его терр подразделений. Именно они используются для поиска и оценки доступности статистических данных в РФ международными экспертами и именно туда приходит большая часть пользователей статистических данных.
Ссылки:
[1] http://government.ru/news/54972/
#opendata #closeddata #russia #statistics
Опишу тезисно и сжато по результатам беглого прочтения.
Положительное
- систематизация ведения статистики, в том числе разработка стандарта (мероприятие 6) и гармонизация справочников (мероприятия 7-10) и разработка стандарта качества (мероприятия 11-13).
- предоставление статистических микроданных для исследователей (мероприятие 40) в соответствии с разрабатываемым регламентом
- явным образом декларируется участие в международных мероприятиях и международной стандартизации статистического учёта
Нейтральное
- создание межведомственного совета по статучёту, пока неясно насколько это будет функциональная и продуктивная структура
- терминологически разведены блоки мероприятий "административных данных" и "больших данных", хотя административные данные по статистическим методологиям в мире относят к подвиду "больших данных".
- ведомственная статистика явным образом не упоминается, наиболее близкий к ней пункт, это мероприятие 8 формирование единого реестра первичных статистических показателей, статистических показателей и административных данных. Возможно она находится де-факто в этом пункте
- новая (?) платформа предоставления статистических данных в мероприятиях 48 и 49. Пока ничего неизвестно по тому как она будет создаваться и эксплуатироваться. Будут ли данные там общедоступны или доступны ограниченно.
- мероприятие по созданию общедоступного архива региональных статистических изданий (мероприятие 47). Нельзя отнести к положительному поскольку срок реализации поставлен на ноябрь 2029 года, в том время как оптимизация численности Росстата запланирована на конец 2027 года. Кроме того пункт 47 неконсистентен. Название упоминает любые архивные статданные, но результат предполагается оценивать только по региональным статданным.
Отрицательное
- полное отсутствие упоминание открытости, открытых данных. Предоставление данных статистики скрыто в разделе "Модернизация инструментов распространения статистических данных", но там упоминается смешение системы публикации показателей и геопространственного представления статистики, но не режим доступа к этой системе.
- полное отсутствие упоминаний системы ЕМИСС включая её возможную судьбу: развитие, вывод из эксплуатации, интеграцию в другую информационную систему
- неопределённый статус Цифровой аналитической платформы (ЦАП) Росстата. Она упоминается в мероприятии 1, но не как система сбора и представления статистики, а как система сбора предложений об актуализации статучёта
- о существовании подсистем информационно-вычислительной системы Федеральной службы государственной статистики мы узнаем только из мероприятия 52 по реализации мер инфобеза.
- отсутствуют мероприятия по оцифровке исторических документов и библиотеки Росстата (если она ещё существует). Это не только статистика, но и иные исторические материалы
- не определена стратегия развития сайта Росстата и его терр подразделений. Именно они используются для поиска и оценки доступности статистических данных в РФ международными экспертами и именно туда приходит большая часть пользователей статистических данных.
Ссылки:
[1] http://government.ru/news/54972/
#opendata #closeddata #russia #statistics
government.ru
Правительство утвердило план мероприятий по реализации Стратегии развития системы государственной статистики и Росстата до 2030…
Распоряжение от 30 апреля 2025 года №1083-р
How Bad Is China’s Economy? The Data Needed to Answer Is Vanishing [1] статья в WSJ (под пэйволом, но можно прослушать в аудио) о том что в Китае перестали публиковать сотни статистических показателей на фоне торговой войны с США. Что-то напоминает, да?
Сейчас будет взлёт спроса на альтернативные данные о состоянии китайской экономики, получить их будет не так просто, но реалистично.
Впрочем всегда есть официальная статистика которую альтернативными способами не получить. Лично мне ещё интересно что будет с данными о внешней торговле Китая. В РФ её закрыли в первую очередь, хочется надеяться что в Китае она останется доступной.
Ссылки:
[1] https://www.wsj.com/world/china/china-economy-data-missing-096cac9a
#opendata #closeddata #china #statistics #tradewars
Сейчас будет взлёт спроса на альтернативные данные о состоянии китайской экономики, получить их будет не так просто, но реалистично.
Впрочем всегда есть официальная статистика которую альтернативными способами не получить. Лично мне ещё интересно что будет с данными о внешней торговле Китая. В РФ её закрыли в первую очередь, хочется надеяться что в Китае она останется доступной.
Ссылки:
[1] https://www.wsj.com/world/china/china-economy-data-missing-096cac9a
#opendata #closeddata #china #statistics #tradewars
В продолжение короткого анализа плана мероприятий по реформе статистики в РФ напомню мои многочисленные тексты про статистику в России и не только:
- Российская статистика: немашиночитаемая институциональная фрагментация - о том российская статистика рассеяна по сотням сайтов
- Статистика как дата продукт - о том как рассматривать статистику как дата продукты
- Дашборд Германии (Dashboard Deutchland) - о том как публикуются статистические индикаторы статслужбой ФРГ
- Обзор сайта Office for National Statistics в Великобритании - о том как раскрывают данные статслужбы Великобритании
- Обзор геопространственной статистики Мексики - от их Национального института статистики
- Признаки хорошей статистической системы - о том как можно публиковать статданные удобным образом
- О статслужбах Канады и Хорватии - и о том как официальные сайты статслужб становятся поисковиком
- О DBNomics - французском проекте по агрегации статистики со всего мира.
- Публикация данных IMF - о том как публикуются данные международного валютного фонда
И многое другое по тегу #statistics тут в телеграм канале.
Учитывая что с самого начала я заводил этот телеграм канал как базу заметок, уже чувствую необходимость превратить его в базу знаний с автоматической синхронизацией того что пишу здесь, в том что разворачивалось бы как Markdown тексты с движком вроде Docusaurus или аналогичными Wiki подобными open source продуктами. Или с автоматической синхронизацией с Obsidian или Notion.
#statistics #readings
- Российская статистика: немашиночитаемая институциональная фрагментация - о том российская статистика рассеяна по сотням сайтов
- Статистика как дата продукт - о том как рассматривать статистику как дата продукты
- Дашборд Германии (Dashboard Deutchland) - о том как публикуются статистические индикаторы статслужбой ФРГ
- Обзор сайта Office for National Statistics в Великобритании - о том как раскрывают данные статслужбы Великобритании
- Обзор геопространственной статистики Мексики - от их Национального института статистики
- Признаки хорошей статистической системы - о том как можно публиковать статданные удобным образом
- О статслужбах Канады и Хорватии - и о том как официальные сайты статслужб становятся поисковиком
- О DBNomics - французском проекте по агрегации статистики со всего мира.
- Публикация данных IMF - о том как публикуются данные международного валютного фонда
И многое другое по тегу #statistics тут в телеграм канале.
Учитывая что с самого начала я заводил этот телеграм канал как базу заметок, уже чувствую необходимость превратить его в базу знаний с автоматической синхронизацией того что пишу здесь, в том что разворачивалось бы как Markdown тексты с движком вроде Docusaurus или аналогичными Wiki подобными open source продуктами. Или с автоматической синхронизацией с Obsidian или Notion.
#statistics #readings
Telegram
Ivan Begtin
По поводу свежего документа с планом мероприятий по реализации Стратегии развития системы государственной статистики и Росстата до 2030 года [1] принятого распоряжением Правительства РФ 30 апреля.
Опишу тезисно и сжато по результатам беглого прочтения.
…
Опишу тезисно и сжато по результатам беглого прочтения.
…
Запоздалая новость российской статистики, система ЕМИСС (fedstat.ru) будет выведена из эксплуатации до 31 декабря 2025 года. Формулировки совместного приказа Минцифры и Росстата упоминают что именно до, а то есть в любой день до конца этого года, хоть завтра.
Что важно:
1. Этого приказа нет на сайте Минцифры России [1]. Единственный приказ опубликованный приказ с этим номером 1138 есть за 2021 год и нет на сайте официального опубликования [2].
2. Этого приказа нет на сайте Росстата [3] (или не находится и сильно далеко спрятан) и точно нет на сервере официального опубликования [4]
Откуда такая таинственность и почему он есть только в Консультант Плюс?
А самое главное, что заменит ЕМИСС? И существует ли уже это что-то
Ссылки:
[1] https://digital.gov.ru/documents
[2] http://publication.pravo.gov.ru/search/foiv290?pageSize=30&index=1&SignatoryAuthorityId=1ac1ee36-2621-4c4f-917f-9bffc35d4671&EoNumber=1138&DocumentTypes=2dddb344-d3e2-4785-a899-7aa12bd47b6f&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1
[3] https://rosstat.gov.ru/search?q=%D0%9F%D1%80%D0%B8%D0%BA%D0%B0%D0%B7+673&date_from=01.01.2024&content=on&date_to=31.12.2024&search_by=all&sort=relevance
[4] http://publication.pravo.gov.ru/search/foiv296?pageSize=30&index=1&SignatoryAuthorityId=24a476cb-b5ae-46c7-b46a-194c8ee1e29a&EoNumber=673&&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1
#opendata #closeddata #russia #statistics
Что важно:
1. Этого приказа нет на сайте Минцифры России [1]. Единственный приказ опубликованный приказ с этим номером 1138 есть за 2021 год и нет на сайте официального опубликования [2].
2. Этого приказа нет на сайте Росстата [3] (или не находится и сильно далеко спрятан) и точно нет на сервере официального опубликования [4]
Откуда такая таинственность и почему он есть только в Консультант Плюс?
А самое главное, что заменит ЕМИСС? И существует ли уже это что-то
Ссылки:
[1] https://digital.gov.ru/documents
[2] http://publication.pravo.gov.ru/search/foiv290?pageSize=30&index=1&SignatoryAuthorityId=1ac1ee36-2621-4c4f-917f-9bffc35d4671&EoNumber=1138&DocumentTypes=2dddb344-d3e2-4785-a899-7aa12bd47b6f&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1
[3] https://rosstat.gov.ru/search?q=%D0%9F%D1%80%D0%B8%D0%BA%D0%B0%D0%B7+673&date_from=01.01.2024&content=on&date_to=31.12.2024&search_by=all&sort=relevance
[4] http://publication.pravo.gov.ru/search/foiv296?pageSize=30&index=1&SignatoryAuthorityId=24a476cb-b5ae-46c7-b46a-194c8ee1e29a&EoNumber=673&&PublishDateSearchType=0&NumberSearchType=0&DocumentDateSearchType=0&JdRegSearchType=0&SortedBy=6&SortDestination=1
#opendata #closeddata #russia #statistics
Хороший разбор в виде дата истории темы зависимости даты рождения и даты смерти в блоге The Pudding [1]. Без какой-то единой визуализации, но со множеством графиков иллюстрирующих изыскания автора и выводы о том что да, вероятность смерти у человека выше в день рождения и близкие к нему дни и это превышение выше статистической погрешности.
Собственно это не первое и, наверняка, не последнее исследование на эту тему. В данном случае автор использовал данные полученные у властей Массачусеца с помощью запроса FOIA о 57 010 лицах.
Там же есть ссылки на исследования с большими выборками, но теми же результатами.
Так что берегите себя и внимательнее относитесь к своим дням рождения, дата эта важная, игнорировать её никак нельзя.
P.S. Интересно что данные в виде таблиц со значениями дата рождения и дата смерти - это точно не персональные данные. Ничто не мешает госорганам не только в США их раскрывать, но почему-то они, всё таки, редкость.
Ссылки:
[1] https://pudding.cool/2025/04/birthday-effect/
#opendata #dataviz #curiosity #statistics
Собственно это не первое и, наверняка, не последнее исследование на эту тему. В данном случае автор использовал данные полученные у властей Массачусеца с помощью запроса FOIA о 57 010 лицах.
Там же есть ссылки на исследования с большими выборками, но теми же результатами.
Так что берегите себя и внимательнее относитесь к своим дням рождения, дата эта важная, игнорировать её никак нельзя.
P.S. Интересно что данные в виде таблиц со значениями дата рождения и дата смерти - это точно не персональные данные. Ничто не мешает госорганам не только в США их раскрывать, но почему-то они, всё таки, редкость.
Ссылки:
[1] https://pudding.cool/2025/04/birthday-effect/
#opendata #dataviz #curiosity #statistics
Forwarded from Dateno
Global stats just got a major upgrade at Dateno!
We’ve updated time series from the World Bank (DataBank) and International Labour Organization (ILOSTAT) — now available in a more powerful and usable format.
📊 What’s new?
19,000+ indicators across economics, employment, trade, health & more
3.85 million time series with clean structure and rich metadata
Support for multiple export formats: CSV, Excel, JSON, Stata, Parquet, and more
Fully documented schemas and all source metadata included
We’re not just expanding our data coverage — we’re raising the bar for how usable and reliable open statistical data can be.
And there’s more coming:
📡 New sources of global indicators
🧠 Improved dataset descriptions
🧩 A specialized API for working with time series in extended formats
Have a specific use case for international statistics? We’d love to hear from you → [email protected]
🔍 Try it now: https://dateno.io
#openData #datadiscovery #statistics #dataengineering #dateno #worldbank #ILOSTAT
We’ve updated time series from the World Bank (DataBank) and International Labour Organization (ILOSTAT) — now available in a more powerful and usable format.
📊 What’s new?
19,000+ indicators across economics, employment, trade, health & more
3.85 million time series with clean structure and rich metadata
Support for multiple export formats: CSV, Excel, JSON, Stata, Parquet, and more
Fully documented schemas and all source metadata included
We’re not just expanding our data coverage — we’re raising the bar for how usable and reliable open statistical data can be.
And there’s more coming:
📡 New sources of global indicators
🧠 Improved dataset descriptions
🧩 A specialized API for working with time series in extended formats
Have a specific use case for international statistics? We’d love to hear from you → [email protected]
🔍 Try it now: https://dateno.io
#openData #datadiscovery #statistics #dataengineering #dateno #worldbank #ILOSTAT
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
В продолжение поста про статистику в Dateno. Это, в принципе, очень большое изменение в том как мы наполняем поисковик. Если раньше приоритет был на индексирование внешних ресурсов и поиск только по метаданным, то сейчас появилось как минимум 2 источника - это статистика Всемирного банка и Международной организации труда которая полностью загружена во внутреннее хранилище, разобрана и подготовлена и теперь можно:
1.Скачать данные в самых популярных форматах, а не только то как они представлены в первоисточнике
2. Видеть полную документированную спецификацию каждого показателя/временного ряда
3. Видеть все дополнительные метаданные как они есть в первоисточнике (подсказка, там больше полезного чем просто в карточке датасета).
Постепенно почти вся статистика в Dateno будет представлена аналогично, это десятки миллионов временных рядов и сотни тысяч индикаторов.
Для тех кто работает со статистикой профессионально мы подготовим API именно для доступ в банк статданных.
Примеры можно посмотреть в поиске фильтруя по источникам: World Bank Open Data и ILOSTAT.
Примеры датасетов:
- набор данных Всемирного банка
- набор данных Международной организации труда
#opendata #dateno #search #datasets #statistics
1.Скачать данные в самых популярных форматах, а не только то как они представлены в первоисточнике
2. Видеть полную документированную спецификацию каждого показателя/временного ряда
3. Видеть все дополнительные метаданные как они есть в первоисточнике (подсказка, там больше полезного чем просто в карточке датасета).
Постепенно почти вся статистика в Dateno будет представлена аналогично, это десятки миллионов временных рядов и сотни тысяч индикаторов.
Для тех кто работает со статистикой профессионально мы подготовим API именно для доступ в банк статданных.
Примеры можно посмотреть в поиске фильтруя по источникам: World Bank Open Data и ILOSTAT.
Примеры датасетов:
- набор данных Всемирного банка
- набор данных Международной организации труда
#opendata #dateno #search #datasets #statistics
Forwarded from Национальный цифровой архив
В связи с грядущей реформой статистического учёта в России и тем что до конца 2025 года планируется вывод из эксплуатации системы статистики ЕМИСС (fedstat.ru) мы начали архивацию всех их общедоступных ресурсов Росстата включая сайты ЕМИСС, Росстата и его территориальных подразделений, на случай если их материалы "случайно потеряются".
Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.
#webarchives #digitalpreservation #statistics #rosstat #russia
Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.
#webarchives #digitalpreservation #statistics #rosstat #russia
Хотите в ИТ? А тем временем в США по данным мониторинга вакансий программистов на Indeed наблюдается резкое их сокращение. Та же фигня в Германии.
Что это означает? То что не надо бегом-бегом учиться программировать если у вас к этому не лежит душа. Потому что надо будет очень быстро и интенсивно пробегать путь от джуниора до миддла.
Ссылки:
[1] https://fred.stlouisfed.org/series/IHLIDXUSTPSOFTDEVE
#statistics #it #usa #germany #programming
Что это означает? То что не надо бегом-бегом учиться программировать если у вас к этому не лежит душа. Потому что надо будет очень быстро и интенсивно пробегать путь от джуниора до миддла.
Ссылки:
[1] https://fred.stlouisfed.org/series/IHLIDXUSTPSOFTDEVE
#statistics #it #usa #germany #programming
Про открытые данные в России на фоне архивации сайтов Росстата. Почему я всегда говорил что data.gov.ru был очень плох, нет даже так очень и очень плох. Потому что одних только статистических отчетов в Excel (XLSX) и только не сайтах территориальных управлений Росстата было опубликовано по от 30 до 80 тысяч файлов. Например, на сайте Мосстата их 1339. Я смогу сказать точнее когда все сайты терр. управлений будут сохранены.
Это помимо того что к данным, с натяжкой, можно отнести и файлы отчетов в MS Word и PDF. Тогда только официально опубликованных файлов со статистическими таблицами будет порядка 200 тысяч. Страшные цифры, хотя эти материалы и доступны, но не систематизированы и ужасно фрагментированы по сложно систематизированным разделам и публикациям.
Причём в разных странах это решают по разному. В Индонезии и Малайзии всю статистику загружали в порталы открытых данных, на многих региональных порталах открытых данных в Испании похожая картина. В Канаде, я об этом писал, переделали сайт статведомства для навигации по разным типам статистических продуктов.
#opendata #statistics #russia
Это помимо того что к данным, с натяжкой, можно отнести и файлы отчетов в MS Word и PDF. Тогда только официально опубликованных файлов со статистическими таблицами будет порядка 200 тысяч. Страшные цифры, хотя эти материалы и доступны, но не систематизированы и ужасно фрагментированы по сложно систематизированным разделам и публикациям.
Причём в разных странах это решают по разному. В Индонезии и Малайзии всю статистику загружали в порталы открытых данных, на многих региональных порталах открытых данных в Испании похожая картина. В Канаде, я об этом писал, переделали сайт статведомства для навигации по разным типам статистических продуктов.
#opendata #statistics #russia
В рубрике как это устроено не у них статистическая база статкомитета СНГ [1].
На удивление правильные декларации начиная с того что акцент на открытых данных и принципах FAIR, предоставлении открытых данных и машиночитаемых данных в SDMX, Excel, LD-JSON и других форматах.
Доступна в виде базы данных [1] и BI-портала [2]
Плюсы:
- декларируемая открытость
- экспорт данных в Excel, SDMX, CSV, JSON и XML
- достаточно подробные метаданные (в BI портале)
- раздел с открытыми данными [3] и всеми справочниками (!)
- наличие API, хоть и плохо документированного, но хоть так
- кроме данных стран СНГ, ещё и копия баз данных FAOSTAT,
Минусы:
- нет возможности массового экспорта данных (bulk download) кроме как вручную
- "плохой" SDMX, формально соответствующий стандарту, но без точек подключения к справочникам (CodeLists) и концептам (Concepts)
- отсутствие лицензий на использование данных
В целом это, скорее, удивительное явление поскольку уровень открытости повыше чем у многие проектов/порталов Росстата включая ЕМИСС. Но и масштаб сильно меньше.
В то же время это полезный источник показателей по постсоветским странам.
Ссылки:
[1] https://new.cisstat.org/web/guest/cis-stat-home
[2] https://eias.cisstat.org/biportal/
[3] https://eias.cisstat.org/downloads/
#opendata #datasets #statistics
На удивление правильные декларации начиная с того что акцент на открытых данных и принципах FAIR, предоставлении открытых данных и машиночитаемых данных в SDMX, Excel, LD-JSON и других форматах.
Доступна в виде базы данных [1] и BI-портала [2]
Плюсы:
- декларируемая открытость
- экспорт данных в Excel, SDMX, CSV, JSON и XML
- достаточно подробные метаданные (в BI портале)
- раздел с открытыми данными [3] и всеми справочниками (!)
- наличие API, хоть и плохо документированного, но хоть так
- кроме данных стран СНГ, ещё и копия баз данных FAOSTAT,
Минусы:
- нет возможности массового экспорта данных (bulk download) кроме как вручную
- "плохой" SDMX, формально соответствующий стандарту, но без точек подключения к справочникам (CodeLists) и концептам (Concepts)
- отсутствие лицензий на использование данных
В целом это, скорее, удивительное явление поскольку уровень открытости повыше чем у многие проектов/порталов Росстата включая ЕМИСС. Но и масштаб сильно меньше.
В то же время это полезный источник показателей по постсоветским странам.
Ссылки:
[1] https://new.cisstat.org/web/guest/cis-stat-home
[2] https://eias.cisstat.org/biportal/
[3] https://eias.cisstat.org/downloads/
#opendata #datasets #statistics