Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике как это устроено у них платформа ioChem-DB [1] каталог данных в области вычислительной химии и материаловедения, не сомневаюсь что большинство химиков работающих с химическими формулами с ним сталкивались.

Его особенность в том что это по-факту:
- специальный набор инструментов по подготовке и преобразованию данных
- модель данных для описания данных
- платформа на базе DSpace для публикации данных в первичном и в преобразованных форматах.

Основной сайт агрегирует данные собранные из других порталов.

Большая часть данных публикуется в форматах Chemical Markup Language (CML) [2] и под свободными лицензиями.

Важная особенность в том что названия и описания этих наборов данных могут быть крайне минималистичны и состоять только из какого-нибудь кода, например 000112758 [3]

Поэтому я лично не знаю как химики используют там поиск и не могу сказать что понимаю как добавлять такие данные в Dateno [4] потому что хоть это и датасеты, но кто сможет найти их с таким-то описанием?

Ссылки:
[1] https://www.iochem-bd.org
[2] https://www.xml-cml.org
[3] https://iochem-bd.bsc.es/browse/handle/100/87916
[4] https://dateno.io

#opendata #chemistry #opensource #datasets #dateno
Сегодня буквально на полчаса была доступна новая версия портала data.gov.ru, но очень быстро снова оказалось закрытой для проведения аттестационных мероприятий.

Даже несколько десятков минут было достаточно чтобы составить впечатление и мне так много что есть сказать об этом, что в короткий формат Telegram канала не уложиться ну никак.

Когда портал "оживёт" я подробно разберу его в рассылке на Substack.

Я ранее там разбирал портал открытых данных Узбекистана, а в телеграм канале писал про особенности портала открытых данных Кыргызстана.

А также несколько раз уже писал про отсутствие портала открытых данных в Казахстане.

Пришла пора и про российский портал рассказать когда (или если?) он оживёт вновь.

#opendata #data #russia #datacatalogs
Оказывается в декабре команда OpenRefine [1], инструмента по ручной очистке данных, опубликовала результаты опроса пользователей о том к какой группе те себя относят, как пользуются и так далее.

И по группам результаты даже чуть удивительные.
Основные пользователи (38%) - это исследователи, а вот следом за ними следующие - это библиотекари.
Далее идут по сообществам:
- Data Science
- Wikimedian
- GLAM

И где-то там же ещё и дата журналисты, digital humanities и тд.

По сути это инструмент как раз для обработки данных в гуманитарных профессиях, относительно небольшого объёма, но с прицелом на работу со связанными данными, Wikipedia/Wikimedia и так далее.

Подозреваю что и Data Science там тоже в контексте не корпоративных, а исследовательских данных.

Кстати, в дата инженерии и корпоративной дата аналитики он почти не применяется. Всё это про разницу в стеках инструментов работы с данными, их достаточно давно можно нарезать группами по областям применения.

Например, дата журналистам или историкам OpenRefine полезен, аналитиков логичнее учить делать то же самое с помощью дата фреймов, дата инженеров с помощью конвееров данных и так далее.

А сам OpenRefine хороший инструмент, но упершийся в жёсткие ограничения внутреннего движка. Если бы я не был так увлечен Dateno я бы всерьёз озадачился созданием UI похожего на OpenRefine, но на движке DuckDB или Polars.

Ссылки:
[1] https://openrefine.org
[2] https://openrefine.org/blog/2024/12/20/2024-survey-results

#opendata #opensource #datatools
В рубрике полезного чтения про данные, технологии и не только:
- The Unique Challenges of Open Data Projects: Lessons From Overture Maps Foundation [1] в блоге Linux Foundation об отличиях работы с открытыми данными и открытым кодом на примере Overture Maps. Написано так словно авторы переоценили свой опыт с открытым кодом применительно к открытым данным, какие-то тезисы кажутся очень очевидными для тех кто в теме давно, что не отменяет их актуальности, конечно.

- La France classée première européenne en matière d'open data pour la 4e année consécutive [2] текущее состояние открытых данных во Франции за 2024 год, на французском, но всё понятно и автопереводчики есть. Если кратко: а) Франция лидер в отчете Open Data Maturity. б) Приоритет на данных особой ценности. в) Приоритет на вовлечении сообщества.

- The State of Open Data 2024: Special Report [3] доклад от Digital Science про состояние открытых исследовательских данных (публикуемых на их платформе, конечно, и ряда других источников). Полезно для общего понимания трендов в этой области, с поправкой на то что они коммерческий провайдер исследовательской инфраструктуры.

- Datos Abiertos de los Registradores de España [4] свежезапущенный каталог открытых данных испанских регистраторов, по сути статистика по банкротствам, покупкам жилья и так далее. Много полезных индикаторов оформленных как открытые данные.

- Wspolna platforma kartografee geologicznej (WPKG) [5] недавно открытая картографическая платформа геологической службы Польши. Помимо большого числа слоёв ещё и публикуют 3D модель геологической структуры территории Польши которая выглядит весьма и весьма неплохо. Открытое API явным образом не обозначено, но внутри всё на базе ArcGIS сервера к которому можно подключиться онлайн без труда.

- qcsv pro [6] коммерческий продукт для обработки данных и публикации на порталах открытых данных на базе CKAN. Смотрю на него критическим взглядом. С одной стороны он не дотягивает до OpenRefine по функциональности обработки и очистки данных, с другой ограничения бесплатной версии в 1000 строк CSV это ну как бы его сильно обесценивает, а с третьей он жёстко ограничен экосистемой CKAN. Есть ощущение что экономика не должна сходится, но вот бизнес модель такую можно зафиксировать. Будет ли она успешной? Посмотрим.

- Open Data Editor [7] некоммерческий редактор открытых данных с открытым данным и возможностью с публикации данных в CKAN и Zenodo. По сути это открытый конкурент qsv pro, и я о нём ранее упоминал. Полезен всем кто готовит небольшие данные для публикации, к сожалению, не годится когда данные не совсем маленькие, например, от 500MB.

- Most violent or sexual offences went unsolved in crime hotspots in England and Wales last year [8] статья в The Guardian о том что раскрывается лишь 11% преступлений сексуального характера в Великобритании раскрывается. И даже важнее то что есть территории где раскрываемость сильно ниже чем по стране, отчасти из-за качества данных, а отчасти это отражает реальную ситуацию. Важно что в Великобритании принципиально возможен такой анализ поскольку полиция раскрывает данные до муниципального уровня на специальном сайте data.police.uk

Ссылки:
[1] https://www.linuxfoundation.org/blog/the-unique-challenges-of-open-data-projects-lessons-from-overture-maps-foundation
[2] https://www.data.gouv.fr/fr/posts/la-france-classee-premiere-europeenne-en-matiere-dopen-data-pour-la-4e-annee-consecutive/
[3] https://www.digital-science.com/state-of-open-data-report-2024/
[4] https://www.registradores.org/-/el-colegio-de-registradores-presenta-la-plataforma-open-data-que-ofrece-información-pública-para-su-consulta-de-forma-libre-y-gratuita
[5] https://geologia.pgi.gov.pl/mapy/
[6] https://qsvpro.dathere.com/
[7] https://opendataeditor.okfn.org/
[8] https://www.theguardian.com/uk-news/2025/jan/13/most-violent-or-sexual-offences-went-unsolved-in-uk-hotspots-last-year

#opendata #uk #poland #geodata #opensource
Про плохие примеры публикации данных, один из давних проектов по открытым данным это платформа Open Data for Africa запущенная в 2011 году [1] Африканским Банком Развития в партнёрстве с компанией Knoema.

С той поры прошло уже 13 лет, практически для каждой африканской страны теперь есть свои порталы на базе этой платформы, например, Либерия [2], Камерун [3], Зимбабве [4] и так далее, их довольно много.

С формальной точки зрения это дата порталы, с каталогами данных, возможностью экспорта данных в CSV, Excel, формат Tableau, с API и так далее. Вроде бы неплохо, но, при этом со множеством недостатков:
1. Объективно это не порталы открытых данных, а порталы статистики, поскольку все опубликованные там данные - это разного рода индикаторы, требующие специальной подготовки перед загрузкой.
2. Поскольку данные там в виде индикаторов, де-факто, их объём очень невелик. По некоторым странам максимум килобайт 10 можно наскрести. Причем слишком часто данные не обновлялись более 10 лет.
3. Многие данные происходят не из стран для которых порталы созданы, а из международных банков данных вроде FAO.
4. У порталов нет удобной выгрузки массовой данных, нужно пройти множество форм чтобы делать экспорт. API плохо документировано, без централизованного описания, нет машиночитаемых каталогов данных и тд.
5. Knoema уже какое-то время не существует как компания, в 2020 году их купили Eldridge [5], а ссылки на их сайте давно неработают, так что и судьбы их платформы мне лично неясна. Больше похоже что её нет, чем то что она есть.

В результате у десятков африканских стран сейчас есть "порталы открытых данных", но качество их сомнительное, данных мало и вся статистика непонятной актуальности, часто редко обновляемые.

При этом почти все африканские страны участвующие в OGP (Open Government Partnership) в своих отчетах пишут что вот мол у нас есть портал открытых данных, посмотрите какой он продвинутый.

Все эти порталы всё ещё отсутствуют в реестре каталогов данных Dateno [6], потому что меня не покидает ощущение что качество их сомнительно. Но, с другой стороны, есть немало примеров куда как хуже, так что может и стоит их добавить.

Ссылки:
[1] https://www.afdb.org/en/news-and-events/afdb-promotes-statistical-development-with-the-launch-of-the-open-data-for-africa-platform-8739
[2] https://liberia.opendataforafrica.org
[3] https://cameroon.opendataforafrica.org
[4] https://zimbabwe.opendataforafrica.org
[5] https://www.businesswire.com/news/home/20201221005152/en/Knoema-Announces-Acquisition-by-Eldridge-and-Partnership-with-Snowflake
[6] https://dateno.io/registry

#opendata #africa #baddata #datacatalogs #data
В блоге Anna's Archive конкурс на визуализацию датасета ISBN'ов [1] (уникальных кодов книг). Что интересно, поскольку во первых там открытые наборы данных, а во вторых призовой фонд в $10000 в виде криптовалюты Monero.

Для тех кто не знает, Anna's Archive -это крупнейшая по настоящему открытая библиотека включающая материалы из LibGen и Sci-Hub. Она много где заблокирована и неизвестно кто её реально ведёт, также как и то почему она названа Anna.

В их базе более 1 петабайта, а данные можно скачать в виде датасетов очень большого объёма [2]. Для этого конкурса скачивать сотни терабайт не нужно, там датасеты поменьше, но это одна из интересных и полезных задач.

Ссылки:
[1] https://annas-archive.org/blog/all-isbns.html
[2] https://annas-archive.org/datasets

#opendata #contests #datasets
В ближайшие дни я в Москве и довольно неожиданно, а на самом деле давно были планы, читаю лекцию про работу с большими исследовательскими датасетами и об использовании DuckDB и Parquet в этих целях. Будет и в части теории и рассказа про современный инструменты и в части демонстрации на живых данных. Для тех исследователей кто хотя бы немного владеет Python, R и/ли SQL всё будет довольно понятно.

А вот и сам анонс;)

Приглашаем поучаствовать в семинаре на тему особенностей работы с современными форматами больших данных.

Поговорим о ключевых преимуществах формата Parquet для оптимизации хранения и обработки данных, а также о возможностях аналитической СУБД DuckDB.

Семинар может быть интересен тем, кто занимается обработкой и анализом больших данных, а также тем, кто ищет эффективные и производительные решения для работы с массивами данных в современных аналитических экосистемах.

Дата проведения: 21 января 2025 г. (вторник), с 16:30 до 18:00
Формат: гибридный
Место проведения: Институт востоковедения РАН (г. Москва, ул. Рождественка, 12), аудитория 222

Регистрация: https://ivran.ru/registraciya-na-seminar

#opendata #opensource #lectures #teaching
Андрей Анненков на D-Russia хорошо пишет [1] про ФГИС для удовлетворения... культурно-языковых потребностей. Почитайте, там много разумного и всё по делу. Лично я стараюсь всё меньше комментировать российскую внутреннюю автоматизацию без контекста того что происходит в других странах.

Так что я добавлю следующее:
1. В мире много инициатив по сохранению лингистических и культурных-языковых материалов, включая онлайн словари и не исключая сервисы проверки языка на простоту, понятность и так далее.
2. Из наиболее заметных я бы выделил PlainLanguage.gov госпроект в США с инструкциями и материалами о том как чиновникам писать тексты просто, ясно, понятно и грамотно. Ничего сверхвеликого в нём нёт, но всё разумно.
3. Другой пример - это европейский проект CLARIN, вернее множество проектов с более чем 900 тысячами языковых ресурсов для работы профессиональных лингвистов. Их аудитория не массовая, но профессиональная, зато вовлеченная в создание текстовых ресурсов для обучения ИИ, к примеру.
4. Практически всё что создаётся в рамках этой ФГИС можно заменить на создание наборов данных. Там нет ничего, я ещё раз подчеркну, ничего ценного кроме этого. Если бы датасеты словарей были доступны и обновлялись бы не раз в 5 лет, а раз в месяц, то поверьте нашлись бы команды которые бы интегрировали эти данные и сделали бы удобные интерфейсы в некоммерческих и коммерческих продуктах.
5. Давайте опишу альтернативный сценарий. Выложить данные датасетами на портале data.gov.ru, на сайте правительства, да где угодно и через Фонд Президентских грантов раздать гранты для исследователей.
6. В целом все что там описано модулями - это не модули, а открытые исследовательские или открытые образовательные ресурсы. Вернее это то как это должно быть
7. Не могу не напомнить о том о чём я писал 2.5 года назад, о новой языковой экономике в Испании [2]. Если кратко, то испанское правительство вкладывает реально огромные деньги в открытые языковые ресурсы, датасеты, модели, исследования. Примеры результатов? Языковые корпусы выложенные в Hugging Face
8. И, немаловажно, что в России языковые ресурсы созданные за деньги государства все являются закрытыми. Национальный корпус русского языка [3] вынесен в отдельное НКО, хотя и разрабатывался преимущественно за бюджетные средства, на нём нет открытых данных, нет открытого API, нет свободного использования, а если он уже окончательно стал коммерческим, то нет инвестиций государства в создание открытых альтернатив.

Даже не знаю что добавить, выводы можно сделать самостоятельно.

Ссылки:
[1] https://d-russia.ru/fgis-dlja-udovletvorenija-kulturno-jazykovyh-potrebnostej.html
[2] https://yangx.top/begtin/4157
[3] https://ruscorpora.ru

#opendata #russia #spending #language #russianlanguage
«Цифровая среда»: Иван Бегтин расскажет об инструментах для работы с данными в гуманитарных науках

22 января
состоится первое в этом году заседание «Цифровой среды» – научно-методического семинара Института цифровых гуманитарных исследований (DHRI) СФУ о Digital Humanities.

Один из самых интересных практиков Open Data, директор АНО «Информационная культура», создатель международного проекта Dateno и автор популярного телеграм-канала Иван Бегтин выступит с докладом «Дата-инженерия в цифровой гуманитаристике».

🔜 Присоединяйтесь к онлайн-семинару ровно через неделю.

Дата: 22 января
Начало: 14.00 (мск)/ 18.00 (крск)
🔗 Зарегистрироваться и добавить в календарь: здесь

#цифроваясреда #смотреть #слушать #данные #opendata
Please open Telegram to view this post
VIEW IN TELEGRAM
Я периодически рассказываю о внутренностях не только Dateno, но и реестра каталогов данных на которых он основан. Я начинал его делать ещё в до самого поисковика и изначально он был разделен на две части.

1-я - это чистовые дата каталоги, по которым метаданные, в основном, собранные вручную. Они были в репозитории в каталоге entries и каждая запись выглядела как YAML файл по определённой структуре. У них был префикс 'cdi' для идентификаторов.

2-я - это временные записи, которые не проходили ручную верификацию и которых было около половины всех каталогов. По ним не были заполнены большая часть сведений которые часто из реестра удалялись. Эти записи были родом из системы поиска каталогов данных которая иногда находила те из них которые уже давно удалены. Они существовали с префиксом "temp" и были в каталоге scheduled.

В итоге оказалось что при обновлении метаданных каждый раз была необходимость удалять старый префикс и назначать новый, а также в том что разделение неэффективно. Приходилось дублировать все операции по обогащению данных на два каталога.

Поэтому одно из важных актуальных изменений реестра в том чтобы свести их в единую модель. И сейчас в последней версии реестра на Github'е [1] лежит датасет с переназначенными идентификаторами и теперь можно приступать к повышению качества каталога автоматизировав присвоение тегов, тем и описаний каждому из них. Это, кстати, то для чего можно применить LLM почти наверняка.

Но это то что является disruptive change поскольку даже временные каталоги данных индексировались в Dateno и их переиндексирование и обновление поиска поменяет некоторые ссылки и в реестре [2] и для датасетов в будущем. Поэтому на самом поиске это отразится не раньше чем через какое-то время, не в ближайшем обновлении.

Реестр - это важная часть качества поиска Dateno поскольку характеристики каталога данных транслируются на датасеты. Если, к примеру, источник данных посвящён здравоохранению то и его параметры переносятся на наборы данных в нём проиндексированные. Это позволяет искать даже те датасеты которые которые своих метаданных имеют мало или почти не содержат. К примеру, почти все датасеты на серверах ArcGIS и Geoserver, но вот их обогащение почти невозможно проводить автоматически, потому на них нет описания содержания этих данных. Геокаталоги, не все, но многие, автоматически документируются довольно плохо. Их наличие делает Dateno одним из наиболее полных поисковиков по геоданным, но искать их сложно если только эти данные не описаны где-то ещё, например, в каталогах Geonetwork со ссылками на георесурсы.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry/
[2] https://dateno.io/registry

#dateno #opendata #datasets
В рубрике закрытых в России данных открытые данные Государственного каталога музейного фонда [1] на портале открытых данных Минкультуры РФ не обновлялись с сентября 2023 года, почти полтора года.

В виде сайта эти данные доступны на goskatalog.ru [2] и, похоже, там эти данные обновляются поскольку количественно объектов там больше чем на портале открытых данных в этом датасете.

Это, конечно, печальное известие потому как с точки зрения организации доступа к данным именно этот ресурс Минкультуры был сделан лучшем чем большая часть порталов открытых данных в России. Печально если он окончательно помирает, впрочем новости там не публикуются с 2021 года, датасеты потихоньку исчезают, а теперь и не обновляются.

Ссылки:
[1] https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
[2] https://goskatalog.ru

#opendata #culture #russia #closeddata
Полезное чтение про данные, технологии и не только:
- Digitalizing sewage: The politics of producing, sharing, and operationalizing data from wastewater-based surveillance [1] оцифровка канализации и переходу к слежке через анализ сточных вод. Скрыто за пейволом, но тема важная, и активно развивающаяся. Годится для тем рассказов социальной фантастики про то как полиция выявляет убийц расчленителей и наркоманов, а медики больных по анализу сточных вод в реальном времени. Статья за пэйволом
- AI Is Bad News for the Global South [2] статья о том что ИИ для развивающихся стран не несёт ничего хорошего. Потому что английский язык, потому что gig-экономика включает многих из развивающихся стран, а теперь будет ИИ контент.
- The Access to Public Information: A Fundamental Right [3] книга Alejandra Soriano Diaz, о том что доступ к информации - это фундаментальное право и от него зависят другие права. Увы, книга не в открытом доступе,
- Kickstarting Collaborative, AI-Ready Datasets in the Life Sciences with Government-funded Projects [4] статья о том что государство должно активно софинансировать создание данных/датасетов в медицине и других life sciences. Там же ссылка на Open Dataset Initiative [5] создание открытых научных датасетов по запросу сообществ.

Ссылки:
[1] https://journals.sagepub.com/doi/abs/10.1177/23996544241313454
[2] https://foreignpolicy.com/2024/12/17/ai-global-south-inequality/
[3] https://www.cambridgescholars.com/product/978-1-0364-1521-1
[4] https://fas.org/publication/collaborative-datasets-life-sciences/
[5] https://alignbio.org/datasets-in-detail

#opendata #data #foi #readings #ai
Я ранее писал про некоторые каталоги данными с открытыми языковыми ресурсами и про испанский национальный проект по созданию языковых моделей и открытых датасетов, но этот пример далеко не единственный.

В рубрике как это устроено у них, создание открытых данных и языковых моделей в других странах.

Норвегия
- наборы данных и модели в AI-Lab при Национальной библиотеке страны [1]. Датасеты в parquet формате и модели публикуются сразу на платформе Hugging Face. Например, The Norwegian Colossal Corpus [2] датасет в 45ГБ на основе открытых текстов
- ресурсный каталог The Norwegian Language Bank [2] включает 1888 ресурсов, большая часть из которых открытые датасеты и открытый исходный код для работы с ними. Являются частью национального проекта CLARINO [3]

Финляндия
- каталог датасетов Национальной библиотеки Финляндии [4] включает метаданные, справочники, API и полнотекстовые датасеты на финском языке.
- также этот каталог, документация к API и дампы доступны в каталоге данных Национальной библиотеки [5] включая SPARQL и связанные данные в RDF
- есть официальное API [6] к Национальному каталогу культурных объектов Finna (объединение каталогов ведущих культурных организаций страны, аналог Europeana в ЕС или Trove в Австралии)

Австралия и Новая Зеландия
- GLAM-Workbench [7] проект Тима Шератта, историка и хакера, по систематизации всех онлайн датасетов и API Австралии и Новой Зеландии. Он получил несколько грантов за/на эту работу, собрал впечатляющее число ресурсов и огромное число тетрадок для Jupyter Notebook и создал множество датасетов и инструментов для работы с ними
- открытое API Trove [8] проекта Национальной библиотеки страны в партнерстве с сотнями культурных организаций по созданию единого каталога изображений, текстов, видео и других оцифрованных и digital-born материалов
- открытое API музея ACMI [9] посвящённого движущимся изображениям (видео и мультимедиа)

США
- открытое API у Библиотеки Конгресс [10], а также их многочисленные репозитории с открытыми данными [11] включая датасеты веб архивов за последние десятилетия [12]
- весь каталог национальных архивов США [13] и множество других датасетов большого объёма от Национальных архивного агентства США
- множество других источников и датасетов, чаще всего API музеев, библиотек и архивов

Сингапур
- коллекция наборов данных Национальной библиотеки Сингапура [14], по большей части метаданные, но охватывают большую часть коллекций. Публикуются все через национальный портал открытых данных страны data.gov.sg на постоянной основе

Ссылки:
[1] https://ai.nb.no/datasets/
[2] https://huggingface.co/datasets/NbAiLab/NCC
[3] https://www.nb.no/sprakbanken/en/resource-catalogue/
[4] https://www.kiwi.fi/display/Datacatalog/Data+sets
[5] https://data.nationallibrary.fi/
[6] https://api.finna.fi/swagger-ui/?url=%2Fapi%2Fv1%3Fswagger
[7] https://glam-workbench.net/
[8] https://trove.nla.gov.au/about/create-something/using-api
[9] https://www.acmi.net.au/api/
[10] https://www.loc.gov/apis/
[11] https://guides.loc.gov/datasets/repositories
[12] https://labs.loc.gov/work/experiments/webarchive-datasets/
[13] https://www.archives.gov/developer/national-archives-catalog-dataset
[14] https://www.nlb.gov.sg/main/discover-and-learn/discover-our-collections/national%20library%20datasets

#opendata #dataset #glam #openglam #datacatalogs