Ivan Begtin
9.3K subscribers
2.09K photos
3 videos
102 files
4.82K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике как это работает у них отдельный интересный пример работы статслужб на примере Office for National Statistics в Великобритании.

У них сайт службы де-факто превращён в портал данных. Не идеальный, например, нет перечня вообще всего что опубликовано, но очень интересный, потому что хорошо структурирован по разделам и работать с ним удобно по предметным областям.

Вот у него есть, как минимум, три важных особенности:
1. Что кроме самих данных статслужбы что они обязаны публиковать, они ещё и публикуют то что у них запрашивают (!!). Идея за этим проста, есть запросы на публикацию сведений по FOI (Freedom of Information Requests) и если запрашиваемые данные не содержат ничего персонального то деньги налогоплательщиков тратятся на создание датасета и этот датасет должен быть общедоступен. Очень правильная идея в своей основе. [1]

2. У них есть каталог временных рядов на основе переписи [2] с более чем 66 тысячами рядов. Поиск по ним неидеален, даже географических фасетов нет, но и в текущем виде работает.

3. И у них есть портал для разработчиков [3] по работе со стат данными, в первую очередь переписи, что позволяет с тем же банков временных рядов работать через API.

Опять же идеализировать нельзя, много чего нет, например, нет экспорта каталога данных в DCAT, нет поддержки SDMX, документированное API охватывает не всё, многие наборы данных на сайте только в Excel формате, но вот перечисленные три особенности реально полезны.

Ссылки:
[1] https://www.ons.gov.uk/businessindustryandtrade/business/businessservices/datalist?page=1&filter=user_requested_data
[2] https://www.ons.gov.uk/timeseriestool
[3] https://developer.ons.gov.uk/

#opendata #statistics #uk #datasets #datacatalogs
В рубрике полезного чтения про данные, технологии и не только:
- The Unique Challenges of Open Data Projects: Lessons From Overture Maps Foundation [1] в блоге Linux Foundation об отличиях работы с открытыми данными и открытым кодом на примере Overture Maps. Написано так словно авторы переоценили свой опыт с открытым кодом применительно к открытым данным, какие-то тезисы кажутся очень очевидными для тех кто в теме давно, что не отменяет их актуальности, конечно.

- La France classée première européenne en matière d'open data pour la 4e année consécutive [2] текущее состояние открытых данных во Франции за 2024 год, на французском, но всё понятно и автопереводчики есть. Если кратко: а) Франция лидер в отчете Open Data Maturity. б) Приоритет на данных особой ценности. в) Приоритет на вовлечении сообщества.

- The State of Open Data 2024: Special Report [3] доклад от Digital Science про состояние открытых исследовательских данных (публикуемых на их платформе, конечно, и ряда других источников). Полезно для общего понимания трендов в этой области, с поправкой на то что они коммерческий провайдер исследовательской инфраструктуры.

- Datos Abiertos de los Registradores de España [4] свежезапущенный каталог открытых данных испанских регистраторов, по сути статистика по банкротствам, покупкам жилья и так далее. Много полезных индикаторов оформленных как открытые данные.

- Wspolna platforma kartografee geologicznej (WPKG) [5] недавно открытая картографическая платформа геологической службы Польши. Помимо большого числа слоёв ещё и публикуют 3D модель геологической структуры территории Польши которая выглядит весьма и весьма неплохо. Открытое API явным образом не обозначено, но внутри всё на базе ArcGIS сервера к которому можно подключиться онлайн без труда.

- qcsv pro [6] коммерческий продукт для обработки данных и публикации на порталах открытых данных на базе CKAN. Смотрю на него критическим взглядом. С одной стороны он не дотягивает до OpenRefine по функциональности обработки и очистки данных, с другой ограничения бесплатной версии в 1000 строк CSV это ну как бы его сильно обесценивает, а с третьей он жёстко ограничен экосистемой CKAN. Есть ощущение что экономика не должна сходится, но вот бизнес модель такую можно зафиксировать. Будет ли она успешной? Посмотрим.

- Open Data Editor [7] некоммерческий редактор открытых данных с открытым данным и возможностью с публикации данных в CKAN и Zenodo. По сути это открытый конкурент qsv pro, и я о нём ранее упоминал. Полезен всем кто готовит небольшие данные для публикации, к сожалению, не годится когда данные не совсем маленькие, например, от 500MB.

- Most violent or sexual offences went unsolved in crime hotspots in England and Wales last year [8] статья в The Guardian о том что раскрывается лишь 11% преступлений сексуального характера в Великобритании раскрывается. И даже важнее то что есть территории где раскрываемость сильно ниже чем по стране, отчасти из-за качества данных, а отчасти это отражает реальную ситуацию. Важно что в Великобритании принципиально возможен такой анализ поскольку полиция раскрывает данные до муниципального уровня на специальном сайте data.police.uk

Ссылки:
[1] https://www.linuxfoundation.org/blog/the-unique-challenges-of-open-data-projects-lessons-from-overture-maps-foundation
[2] https://www.data.gouv.fr/fr/posts/la-france-classee-premiere-europeenne-en-matiere-dopen-data-pour-la-4e-annee-consecutive/
[3] https://www.digital-science.com/state-of-open-data-report-2024/
[4] https://www.registradores.org/-/el-colegio-de-registradores-presenta-la-plataforma-open-data-que-ofrece-información-pública-para-su-consulta-de-forma-libre-y-gratuita
[5] https://geologia.pgi.gov.pl/mapy/
[6] https://qsvpro.dathere.com/
[7] https://opendataeditor.okfn.org/
[8] https://www.theguardian.com/uk-news/2025/jan/13/most-violent-or-sexual-offences-went-unsolved-in-uk-hotspots-last-year

#opendata #uk #poland #geodata #opensource
Свежее полезное чтение Governing in the Age of AI: Building Britain’s National Data Library [1] от британского института Тони Блэра про то как строить Британскую Национальную Библиотеку данных.

Это особенно длинный лонгрид со многими фундаментальными вопросами, но ключевое можно выделить что де-факто это:
- платформа для академических исследований в экономике
- платформа для коммерческого R&D
- среда для подготовки решений основанных на данных (для регуляторов)

Кроме британцев там авторы из Google и статслужбы Новой Зеландии. А также активно ссылаются на эстонский опыт с X-Road.

Всё это чем-то похоже на Data Spaces в Евросоюзе, но они вводят новый термин Data Biomes как развитие идеи экосистемы работы с данными. При этом на инициативы ЕС вообще нигде не ссылаются, придумывают собственный фундамент.

Я этот документ ещё буду перечитывать чтобы разобрать его подробнее. В любом случае он будет полезен всем кто думает о том как это устроено у них, там много отсылок на существующие дата платформы Великобритании.

Ссылки:
[1] https://institute.global/insights/tech-and-digitalisation/governing-in-the-age-of-ai-building-britains-national-data-library

#opendata #policies #uk #regulation #readings
В рубрике как это устроено у них проект bustimes.org с расписаниями автобусов в Великобритании и картой их движения в реальном времени. Автор обрабатывает данные из примерно десятка источников, геокодировал все остановки и позволяет спланировать поезки и найти сайты и контакты перевозчиков.

Пример проект на открытых данных, преимущественно используя открытые API транспортных служб Великобритании.

Такого нехватает для многих стран, хотя бы для региональных поездок.

Неидеальный, но открытый и полезный продукт. Жаль что там только Великобритания.

#opendata #transport #uk