Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.75K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике российской специфики публикации открытых данных я уже немало ранее писал о том что российские практики публикации открытых данных весьма специфичны (с) и значительно отличаются от лучших мировых практик. Например, при публикации датасетов практически не используется спецификация по стандарту schema.org, не используется типовое ПО для публикации датасетов, не используются стандарты такие как DCAT, бывает что и датасеты доступны только после авторизации на Госуслугах.
А вот ещё одна необычная практика, датасеты системы Государственного водного реестра публикуются в виде ZIP файла с цифровой подписью [1]. Я такого ранее не встречал, впервые вижу подобную практику и, честно говоря, не то чтобы осуждаю, но считаю довольно бессмысленной.

Да и сами данные публикуются в этой системе без страниц карточек датасетов, в результате невозможно сослаться на конкретный набор данных, только на страницу всех наборов.

Что тут скажешь, хорошо что хоть что-то публикуют и обновляют данные. Даже если и не особенно любят людей.

Ссылки:
[1] https://gis.favr.ru/web/guest/opendata

#opendata #russia #water #data
Напоминаю что день открытых данных в России пройдёт 1 марта, в эту субботу, совсем скоро и что его программа уже доступна https://opendataday.ru/msk

У нас 8 выступающих в этом году, по разным темам, большая часть из которых связаны с научными исследованиями и популяризацией работы с данными для исследователей.

Я тоже буду там выступать и расскажу про поиск открытых данных с помощью Dateno

Напомню что день открытых данных проходит по всему миру между 1 и 7 марта, в России он пройдет 1 марта в онлайн формате.

А вскоре я напишу подробности про день открытых данных в Армении который пройдет оффлайн.

#opendata #opendataday #events #data
Всем привет! Напоминаю, что сегодня начинается российский День открытых данных https://opendataday.ru/msk в 11:00 по Москве (UTC+3)

Я буду выступать в нём модератором и буду выступать с 11:45 с рассказом про поиск в Dateno. И здесь в канале я буду регулярно писать про выступления, анонсируя или комментируя выступающих, так что публикаций сегодня будет более чем обычно, надеюсь это не слишком утомит читателей;)

Первое выступление будет в 11:15 от Дмитрия Скугаревского на тему "Российская база бухгалтерской отчетности". Доклад очень интересный, напомню что датасет к нему доступен на Hugging Face, а из выступления Дмитрия можно будет узнать как он создавался.

Присоединяйтесь к трансляции Дня открытых данных 2025 в ВК или YouTube.

#opendataday #opendata #data #datasets #events
А сейчас выступает Мария Сысоева с докладом Музейные данные: реализация просветительской функции, это будет особенно интересно для тех кто работает с данными о культурном наследии. А до этого было выступление Татьяны Максимовой о данных в генеалогии, её презентация доступна https://yangx.top/mskopendataday/2792 и видеозапись тоже скоро появится.

#opendatadata #opendata #culturalheritage
Мою презентация с сегодняшнего Дня открытых данных в России можно посмотреть онлайн https://www.beautiful.ai/player/-OKHlQrIzuA3Bba4k-Uz

Она была полностью посвящена Dateno и практике поиска датасетов. Это не первая и не последняя моя презентация по этой теме, но как водораздел обновления Dateno до 22 миллионов датасетов.

#opendata #dateno
В рубрике как это устроено у них о том как трансформируются научные журналы в сторону работы с данными. Журнал European Journal of Taxonomy открыл портал с данными по биоразнообразию на своём сайте [1]. Портал явным образом интегрирован с проектом GBIF и другими порталами данных в этой области и теперь на нём размещены наборы данных в форме датасетов и инструментов поиска по спискам биоразнообразия.

При этом он реализован не на движке IPT который распространяет GBIF, а неким другим образом, не удивлюсь если это какая-то собственная разработка особенностью которой является представление данных в виде кластеров [2], а также возможности поиска и аналитики.

Фактически журнал переходит от работы со статьями к работе с данными и широким набором инструментов аналитики. Это принципиально иной подход к работе с их аудиторией, исследователями.

В виду специфики темы они работают со специальными форматами данных описываемых в формате MetoTaxa, это так называемый XML-first подход [3] и работа со стандартизированными данными.

Ссылки:
[1] https://europeanjournaloftaxonomy.eu/index.php/ejt/announcement/view/45
[2] https://data.europeanjournaloftaxonomy.eu/occurrence/search/?view=CLUSTERS
[3] https://www.ouvrirlascience.fr/adaptation-of-metopes-for-taxonomy-edition/

#opendata #biodiversity #biology #datacatalogs
Для тех кто в Армении в ближайшие дни, напомню что 5 и 6 марта в Армении пройдет Open Data Day, его программа доступна на сайте https://odd.opendata.am и там же можно зарегистрироваться. Это оффлайн митап где основное будет нетворкинг сообщества по открытым данным и несколько мастер-классов о том как работать с данными в примерах.

В частности, я буду 5-го рассказывать про состояние открытых данных в мире и 6-го числа проведу мастер класс по работе с культурными данными.

Напомню что ранее прошёл российский Open Data Day, полностью онлайн. Напомню что записи российского ODD доступны в ВК и YouTube.

#opendata #armenia #data #events #odd
В рубрике как это устроено у них проект AidData [1] база данных, каталог данных и аналитические сервисы посвящённые международной помощи. Проект в который его создатели много лет в виде отдельных, но связанных баз данных собирали информацию о том как развитые (и не очень) страны помогали развивающимся.

В какой-то момент в проекте сильный акцент появился на китайской международной помощи и несколько баз данных посвящены ей, причём многие данные о китайских проектах извлекаются из разрозненных PDF отчётов вручную. Например, любопытный набор данных по экспорт ИИ из Китая [2]

Их, в том числе, поддерживали USAID и Госдепартамент США в прошлые годы, но это тот случай когда скорее администрация Трампа или поможет или не будет мешать проекту, поскольку он явно всё больше ориентируется на отслеживание активностей Китая.

Данные не самые большие, каталог данных не самый технически продвинутый, но сами данные интересны, особенно тем кто интересуется геополитикой в экономических её проявлениях.

Ссылки:
[1] https://www.aiddata.org
[2] https://www.aiddata.org/data/chinas-ai-exports-database-caied

#opendata #datasets #datacatalogs #china
Вчера и сегодня провожу время на Open Data Day в Армении, вчера у нас был день посвящённый дата журналистике, визуализации и награждению участников конкурса, а сегодня мастер-классы по качеству данных на примере данных проекта Dateno и мастер класс по работе с культурными данными связанными с Арменией.

Про культурные данные в Армении - это гораздо сложнее чем во многих странах поскольку значительное число артефактов истории и культуры связанные с Арменией рассеяны по разным странам и чаще доступны не из Армении, а в Европе, России, Австралии и других странах.

#opendata #opengov #armenia