Ivan Begtin
9.29K subscribers
2.07K photos
3 videos
102 files
4.81K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике как это устроено у них новый каталог открытых данных Словакии data.slovensko.sk заменил предыдущий портал data.gov.sk (более недоступен). Новый портал переписали на CSharp и его код доступен [1]. Из его особенностей - это ориентация на SPARQL, доступность возможности работы со SPARQL эндпоинтом, а также то что краулит из 12 каталогов открытых данных страны и подлерживает каталоги датасетов по стандартам DCAT-AP, SPARQL и CKAN API.

Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.

В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектах за госсчёт, но к современной дата инженерии он имеет смутное отношение. Вообще никакого, если честно. Экспорт данных в Parquet, удобное REST API и, может быть, даже GraphQL эндпоинт куда важнее.

Ссылки:
[1] https://github.com/slovak-egov/nkod-portal

#opendata #slovakia #eu #standards #data #datasets
Вышла вторая версия стандарта Data Package [1] ранее он назывался Frictionless Data. Полезен он будет всем кто публикует табличные CSV файлы которые с его помощью очень хорошо описываются. Это большой плюс, особенно для тех кто не является дата инженерами или аналитиками, а рядовыми учёными, пользователям и тд.

Это же и минус. Лично я вспоминаю что мало какие интересные данные публиковал за последние годы именно в CSV. В основном же это были JSON lines файлы или parquet. А стандарт пока CSV ориентированный, что не отменяет его полезности если с CSV Вы работаете и активно. Или если пользователи готовят всё ещё данные в Excel, а надо бы что-то получше.

Так что ругаю я зря, а хвалю не зря. Стандарт надо использовать и развивать спектр поддерживающих его инструментов.

Ссылки:
[1] https://datapackage.org

#opensource #standards #opendata #data #okfn
В рубрике интересных открытых данных StanDat - International Standards Database [1] коллекция наборов данных и база данных по международным стандартам, представлено в разных разрезах, доступно для скачивания. Все данных из International Standardization Organization (ISO) представленные в виде таблиц, но без текстов самих стандартов, только метаданные и статистика. Полезно для тех кто отслеживает международную стандартизацию.

Лицензию и открытый код найти не удалось.

Ссылки:
[1] https://shiny.uio.no/standat/

#opendata #datasets #standards
В рубрике как это устроено у них publiccode.yml [1] [2] стандарт публикации открытого кода созданного за счёт государственного или местных бюджетов (public software). Изначально разработан итальянскими госразработчиками, потом преобразованный в международный стандарт.

Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а

Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.

Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.

Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml

#opensource #government #standards