Ivan Begtin
8.1K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Еврокомиссия 24 сентября запустила Public Procurement Data Space (PPDS) [1] инициативу по интеграции данных о государственных закупках в странах Евросоюза. Инициатива эта является продолжением и развитием Европейской стратегии данных (European strategy for data) [2] от 2020 года где тематика доступности данных о закупках была явно обозначена.

Из любопытного:
1. В основе технологий PPDS лежит онтология eProcurement Ontology (ePO) [3] и технологии Knowledge Graphs с реализацией аналитической базы данных с интерфейсом SPARQL
2. У проекта есть открытые репозитории, в основном с проверка
ми качества данных и индикаторами [4]
3. А также они в открытый доступ отдают дашборды с оценками качества данных [5], реализованы дашборды на Superset

Собственно чего в PPDS пока нехватает - это самих данных, систематизированных и пригодных для автоматической загрузки и обработки.

Ссылки:
[1] https://www.public-procurement-data-space.europa.eu/en
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52020DC0066
[3] https://docs.ted.europa.eu/EPO/latest/index.html
[4] https://eproc.pages.code.europa.eu/ppds/pages/
[5] https://www.public-procurement-data-space.europa.eu/en/dashboards

#opendata #europe #procurement #data #datasets
Продолжая тему данных о климате и наблюдении за океанами и морями, проект SeaDataNet [1] пан-Европейская инициатива по упрощению доступа к данным морских исследований. Включает поиск по более чем 3 миллионам наборам данных [2] которые являются пробами, наблюдениями и так далее.

Большая часть данных происходит из Франции, более 1.1 миллиона записей, но много данных и из России, порядка 182 тысяч записей.

Данные есть из практически всех европейских и многих околоевропейских стран с выходом к морю. Поэтому данные, к примеру, из Грузии есть, а из Армении нет.

Почти все данные под лицензией Creative Commons, но для доступа нужна регистрация.

Это другой пример очень специфических отраслевых данных, можно обратить внимание что поиск по ним по собственным уникальным фильтрам таким как: морской регион, координаты, научная дисциплина, способ получения данных и так далее.

Привязка данных связана скорее с географическим положением, чем с административными границами.

Ссылки:
[1] https://www.seadatanet.org/
[2] https://cdi.seadatanet.org/search

#opendata #climate #oceans #europe #datacatalogs #datasearch
Вышел европейский доклад
Open data in Europe 2024 [1] который также называют доклад по зрелости открытых данных (Open Data Maturity Report). В нём анализ состояния открытости данных, порталов открытых данных и госполитик в этой области по всем странам ЕС + некоторым странам кандидатам + Украине. Например, Сербия, а также Босния и Герцеговина там есть, а вот Грузии и Турции там нет. Впрочем на сегодняшний день это самый всеохватывающий доклад по открытости данных в отдельном над государственном образовании / регионе.

На первых трех местах по общей оценке идут: Франция, Польша и Украина, а на последних трёх: Албания, Мальта и Босния и Герцеговина. Последний случай особый, там отставание от стран ЕС наиболее серьёзно. По сути в Боснии и Герцеговине внятной политики открытости данных нет, портал данных тоже был в полурабочем состоянии когда я смотрел его в последний раз.

Лично мне доклад наиболее интересен большим числом кейсов, примеров и ссылок на порталы. Всегда есть что добавить в реестр каталогов данных Dateno.

Ссылки:
[1] https://data.europa.eu/en/publications/open-data-maturity/2024

#opendata #europe
В продолжение про зрелость открытых данных в Европе, коротко о том как в Европейском союзе устроена работа с открытыми данными.

1. У ЕС сформировалось зрелое законодательство по открытости охватывающее все страны, в которых приняты соответствующие законы, созданы порталы с открытыми данными, мониторинг их публикации и множество инициатив так или иначе с этим связанных.
2. Еврокомиссия ведёт портал data.europa.eu в котором аггрегируется уже более 1.8 миллиона наборов данных из порталов открытых данных ЕС
3. Около 2/3 всех опубликованных данных на национальных порталах открытых данных в ЕС - это геоданные.
4. В ЕС особенно много порталов данных и геопорталов регионального и муниципального уровня. В реестре каталогов данных Dateno их 467, с оговоркой что в реальности их значительно больше
5. Значительная часть региональных и городских порталов открытых данных работают на базе SaaS продукта от французского разработчика OpenDataSoft
6. В отличие от США в ЕС публикации на национальных порталах открытых данных и в научных репозиториях разделены и научные данные европейских исследователей представлены в системе OpeanAIRE
7. Важная особенность Евросоюза - это раскрытие данных особой ценности (HVD, High Value Datasets). Наборы данных про которые точно известно что они востребованы пользователями.
8. В Dateno чуть менее 7 миллионов наборов данных собраны из стран ЕС или охватывают страны ЕС. Большая часть этих данных - это геоданные, около 55%
9. При этом Dateno индексирует лишь половину национальных порталов стран ЕС поскольку другая половина использует нетиповое ПО. Откуда тогда такой охват? Из большого числа малых региональных и городских порталов данных и геопорталов, которые не попадают в общеевропейский data.europa.eu. Постепенно в Dateno будут все европейские национальные порталы данных тоже
10. Ещё одна тема не раскрываемая в отчетах Open Data Maturity - это доступность статистики. В ЕС наднациональная статистика Евростата и ЕЦБ хорошо представлена для любых пользователей, включая тех кто работает с ними как с базами данных. На национальном уровне большой разброс разных систем публикации индикаторов. но более всего используется шведская система PxWeb
11. В ЕС до сих пор популярно предоставление национальных данных через интерфейсы SPARQL и как связанные данные. Такое мало где практикуется в мире, слабо связано с современными инструментами работы с данными и дата инженерии, но имеет прямую взаимосвязь с работой с научными данными и онтологиями.

#opendata #europe #datacatalogs
В рубрике как это устроено у них European Health Information Gateway [1] портал данных Всемирной организации здравоохранения (WHO) на котором опубликованы десятки наборов данных с данными по статистике здравоохранения, целевым исследованиям, мониторингу и отчётам по европейским странам. Причём к Европе там отнесены и Турция, и Россия, и Армения и страны Центральной Азии. По каждой из стран доступно множество индикаторов и есть возможность работать с этими данными с помощью API [2].

Сам сайт представлен на двух языках, английском и русском, что тоже нестандартно для сайтов структур ООН, обычно там или только английский, или набор основных языков ООН.

Для тех кто ищет региональные данные не обязательно отправляться на сайт WHO, можно обратить внимание на их региональные порталы с данными. Другие примеры таких порталов по регионам:
- data.wpro.who.int - Western Pacific [3]
- opendata.paho.org - Americas [4]
- hip.searo.who.int - South-East Asia [5]

и так далее. Среди них европейский портал сделан существенно лучше, там, и удобное API,и отдельно датасеты и отдельно индикаторы.

Ссылки:
[1] https://gateway.euro.who.int/en/
[2] https://gateway.euro.who.int/en/api/
[3] https://data.wpro.who.int/
[4] https://opendata.paho.org/en
[5] https://hip.searo.who.int/dhis/dhis-web-commons/security/login.action

#opendata #datasets #europe #statistics #healthcare
Я, кстати, искал примеры живых данных в формате Parquet которые бы публиковались целенаправленно как открытые данные и таки нашёл.

Проект Open Performance Data Initiative (OPDI) [1] создан Евроконтролем в 2022 году для публикации данных об эффективности управления воздушным трафиком.

Данные на портале публикуются в виде Parquet файлов [2], с интервалами дат и инструкцией по их автоматической загрузке. По сути симуляция API.

Причём данных там немало. Данные о событиях за 10 дней собираются в Parquet файл размером до 150МБ что с учётом сжатия формата хранения раскрывается в сотни миллионов значений за три года.


Ссылки:
[1] https://www.opdi.aero
[2] https://www.opdi.aero/flight-event-data

#opendata #europe #transport #airtraffic #datasets
В рубрике как это устроено у них Европейский проект Europeana [1] является не только общедоступной поисковой системой по культурному наследию Евросоюза, но и одним из крупнейших источников открытых данных используемых исследователями и просто заинтересованными пользователями.

В рамках Europeana доступно сразу несколько API [2] позволяющих получать доступ к поиску и информации об объектах в индексе, а также все метаданные доступны через открытый FTP сервер [3]. Это более 242 GB сжатых метаданных в формате RDF. После распаковски это чуть более 1TB RDF/XML документов включающих все описания всех размещённых на сайте изображений культурного наследия.

В виду высокой избыточности RDF документов, итоговые данные можно преобразовать в базу от 50 до 100GB, с чем уже можно работать без серверной инфраструктуры.

Не все знают также что Europeana - это агрегатор цифровых объектов из европейских культурных инициатив и проектов и агрегируется туда далеко не всё. Например, в Europeana лишь 626 445 записей [4] из греческого национального поисковика по культурному наследию SearchCulture.gr, а на самом сайте греческого проекта их 938 929 [5].

Тем не менее именно благодаря Europeana значительные объёмы информации о культурном наследии Европы стали доступны как открытые данные и большая часть культурных учреждений стран ЕС являются или аккредитованными партнерами Europeana или предоставляют информацию о своих коллекциях национальным аккредитованным партнерам.

Ссылки:
[1] https://www.europeana.eu
[2] https://europeana.atlassian.net/wiki/spaces/EF/pages/2461270026/API+Suite
[3] https://europeana.atlassian.net/wiki/spaces/EF/pages/2324463617/Dataset+download+and+OAI-PMH+service
[4] https://www.europeana.eu/en/collections/organisation/1331-greek-aggregator-search-culture-gr
[5] https://www.searchculture.gr/aggregator/portal/?language=en

#opendata #culture #europe #europeana