Ivan Begtin
8.1K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике как это устроено у них раскрытие данных Европейского центрального банка (ECB) на ECB Data portal [1]. Главная особенность именно портала данных ECB в том что они публикуются, одновременно, для аналитиков не умеющих работать с техническими инструментами, тех кто умеет работать с API и тех кто оперирует большими данными.

Все индикаторы ECB собраны в 108 наборов данных по группам [2] скачав файлы которых можно сразу загрузить в свою базу данных и сразу работать с их значениями. Это то что называют bulk download.

Одновременно с этим каждый индикатор доступен в визуальной форме [3] и, наконец, у всего этого каталога данных есть API по стандарту SDMX 2.1 используемого для раскрытия статистики. [4]

В целом это один из наиболее методологически проработанных порталов публикации статистики поскольку современные стат. порталы удобны когда учитывают интересы многих типов пользователей.

Всем исследователям и аналитикам кто работает с данными нужны API и возможность выгрузки данных целиком.

А всем тем кто ссылается на конкретный индикатор, в статье или в научной работе - нужна постоянная ссылка на конкретный индикатор.


Ссылки:
[1] https://data.ecb.europa.eu
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/data/datasets/AME/AME.A.DNK.1.0.0.0.OVGD
[4] https://data.ecb.europa.eu/help/api/overview

#opendata #data #europe #centralbank #ecb #datasets #api #sdmx
В рубрике как это устроено у них статистический портал Канады [1] фактически превращённый в портал открытых данных. В общей сложности более 12 тысяч наборов данных из которых 11.5 тысяч - это табличные данные индикаторов с возможностью их выгрузки в форматах CSV и SDMX, а также через открытое API [2].

Характерная особенность что их аналитические тексты - это де факто data stories в форме лонгридов к которым всегда приложены таблицы с данными в их же системе [3].

То есть даже те кто приходит почитать текст имеют возможность сразу открыть таблицу и изучить данные.

Внутри всё работает на SDMX движке и есть возможность работать с API основанном на SDMX для подключения к данным. [4]

В принципе, это иллюстрация одного из трендов развития статистических продуктов в сторону профессиональных стандартов работы с данными, в данном случае SDMX.

Ссылки:
[1] https://www150.statcan.gc.ca/n1/en/type/data?MM=1
[2] https://www.statcan.gc.ca/en/developers?HPA=1
[3] https://www150.statcan.gc.ca/n1/daily-quotidien/241003/dq241003a-eng.htm
[4] https://www150.statcan.gc.ca/t1/wds/sdmx/statcan/rest/data/DF_17100005/1.1.1

#statistics #canada #opendata #sdmx #api #data
Я совсем недавно несколько раз писал лонгриды в рассылке о том как работать со статистическими данными и как их публикуют:
- Статистика как дата продукт
- Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
- Российская статистика: немашиночитаемая институциональная фрагментация
А также много постов у меня тут в канале по хештегу #statistics

Однако я понял что у меня практически нет компактного тезисного текста о том что происходит со статистикой в мире и как она меняется, хотя бы в части работы с потребителями.

1. Основные направления развития статистических продуктов это:
- создание дашбордов по аналогии с корпоративными дашбордами (Dashboard Deutschland)
- создание инструментов самостоятельного построения визуализаций пользователями (visualize.admin.ch)
- превращение портала статслужбы в портал данных (ons.gov.uk)
- предоставление данных для массовой выгрузки (ECB Data Portal)
- использование форматов данных из data science таких как parquet (OpenDOSM)
- продвижение и развитие SDMX форматов и API (BIS Data Portal)
- предоставление статистики в режиме API-first (SingStat TableBuilder и многие другие)
- развитие публикации высокочастотных показателей вплоть до суток (порталы статистики центральных банков, BIS Data Portal)
- развитие экспериментальной статистики (Eurostat, IStat, Statistics Iceland)

2. Большая часть статистических порталов в мире индивидуальны. Из известного тиражируемого ПО можно выделить только:
- PxWeb - продукт разработанный статслужбой Швеции, активно используемый всеми скандинавскими странами и рядом других стран.
- .Stat Suite - теперь с открытым кодом. Используется статслужбой Австралии, ОЭСР и рядом стран.
- Fusion Metadata Registry - изначально разработан командой Банка международных расчётов, сейчас отдан на коммерциализацию. Является ядром для большей части публичных порталов данных отдающих статистику с SDMX совместимым API. Например, SDMX Registry Евростата

3. Всё большее число статистических ведомств создают и публикуют дата стратегии. Эти стратегии охватывают такие вопросы как:
- принципы работы с данными
- приоритеты
- стандарты и форматы обмена и публикации данными
- политики работы с данными
- источники получения данных

Примеры:
- ONS Data Strategy - стратегия работы с данными статслужбы Великобритании
- ABS Data Strategy 2021-22 to 2025 - стратегия работы с данными статслужбы Австралии
- Statistics Canada Data Strategy - дата-стратегия статслужбы Канады

4. В некоторых странах статслужбы отвечают за национальные порталы открытых данных:
- Новая Зеландия - глава статслужбы занимает позицию Government Chief Data Steward (GCDS) и определяет принципы развития и дорожную карту нац портала данных data.govt.nz
- Малайзия - национальный портал открытых данных data.gov.my переделан в портал статистики и дашбордов на основе портала статпоказателей open.dosm.gov.my статистического офиса страны.

5. Все коммерческие поставщики данных временных рядов активно игнорируют международные стандарты вроде SDMX и фокусируются, в первую очередь, на предоставлении данных через API (Nasdaq Data Link).

6. Всё что касается экспериментальной статистики - это то что в коммерческом секторе называется альтернативными данными. Их поставщиков много, они фокусируются на предоставлении их в тех форматах которые наиболее удобны потребителям. Чаще всего это API, датасеты или базы данных в облачных сервисах.

#opendata #statistics #sdmx #data #dataengineering