Ivan Begtin
9.3K subscribers
2.07K photos
3 videos
102 files
4.81K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
По поводу новости о Национальной базе генетической информации [1] и о том как она будет устроена. Я вот ещё на первых новостях о её появлении пытался найти хотя бы страницу с описанием этого проекта и хотя бы один документ, но ничего кроме постановления Пр-ва не нашёл, на сайте Курчатовского института тоже ничего не находится или ну очень глубоко спрятано, хотя казалось бы...

Поэтому вместо рассуждений о несделанном напомню про Китайский национальный центр по биоинформатики в котором хранится национальный банк генетических данных Китая. Чуть менее чем год назад там было геномных данных на 53 петабайта [2], сейчас на 68.7 петабайт [3].

Ссылки:
[1] https://www.rbc.ru/technology_and_media/24/03/2025/67dda55f9a79470f47baa7f0
[2] https://yangx.top/begtin/5954
[3] https://www.cncb.ac.cn/

#opendata #russia #china #genomics #bioinformatics
Победители конкурса Open Data Armenia рассказывают о своём проекте [1]. Мне как организатору приятно что хорошие проекты подаются к нам на конкурс и побеждают и приятно что историей Армении интересуются не только армяне 🇦🇲

Я лично всё время ощущаю себя одновременно армянином, но с чувством что я недостаточно много делаю для своей второй родины.

Ощущаю свой вклад через такие конкурсы и то что создали и развиваем Open Data Armenia (@opendataam).

Ссылки:
[1] https://www.linkedin.com/posts/karasu_armenia-during-tigranes-the-great-activity-7302251419477168129-Zf2K/

#opendata #armenia #digitalhumanities
Please open Telegram to view this post
VIEW IN TELEGRAM
В рубрике как это устроено у них портал данных Humanitarian Data Exchange [1] это один из порталов открытых данных ООН, он был создан Управлением ООН по координации гуманитарных вопросов для публикации данных связанных и значимых для решения глобальных и региональных гуманитарных кризисов и для координации множества организаций помогающих в предупреждении катастроф и минимизации последствий.

Важное их отличие от других порталов открытых данных - это наличие событийного разреза. Например, в момент начала землетрясения в Мьянме они создали соответствующую страницу события [2] где собраны, на сегодня, 20 наборов данных связанных с Мьянмой. Например, оценка масштабов повреждения зданий [3] с помощью AI на основе анализа спутниковых снимков до и после землетрясения от Microsoft AI Labs или вот данные о финансировании [4] и донорах для организаций участвующих в ликвидации последствий.

Ссылки:
[1] https://data.humdata.org/
[2] https://data.humdata.org/event/myanmar-earthquake
[3] https://data.humdata.org/dataset/myanmar-earthquake-building-damage-assessment-from-3-28-2025
[4] https://data.humdata.org/dataset/fts-requirements-and-funding-data-for-myanmar

#opendata #myanmar #earthquake #ocha #datacatalogs
Читаю работу OpenAlex: End-to-End Process for Topic Classification [1] от команды графа по научным работам OpenAlex о том как они классифицируют научные работы по каким темам и там у них есть иерархическая модель разметки работ по уровням Domains -> Fields -> Subfields -> Topics, причём тем (topics) довольно много и они привязаны все к статьям в Википедии. А вообще они построили свою классификацию через идентификацию макрокластеров [3] сообществ через цитирование. Большая и интересная тема, с понятной сложностью и результатами.

Я на всё это смотрю с точки зрения улучшения классификации датасетов в Dateno [4]. Сейчас в Dateno используется два классификатора. Европейский Data Theme [5] используемый в их портале data.europe.eu, но у него всего 13 тем очень верхнеуровневых и тематические категории (topic category) из ISO 19115 [6] которых 19 штук и тоже без иерархии. Тематические категории используются в каталогах данных на базе Geonetwork и в программе INSPIRE Евросоюза и они применимы к геоданным, в первую очередь.

Это одна из особенностей Dateno, да и остальных индексаторов датасетов. По разным блокам и типам каталогов данных свои тематические категории, не связанные между собой и кроме обычных датасетов и геоданных есть ещё и большие банки статистических данных живущих по своим правилам и своим группам.

Сложностей несколько:
- в отличие от научных работ здесь нет цитирования или аналогичных связей, значительно сложнее строить смысловые кластеры. Их можно строить на названиях, оригинальных тематиках в первоисточнике, тематиках самого первоисточника, но не на цитировании и не на связях.
- язык науки в мире почти весь английский, а там где не английский то французский, но в целом все исходят из того что он английский. А среди датасетов много данных на самых разных языках. Тут как раз проще со статистикой которая почти всегда имеет английскую версию и сложнее с остальным.

Тем не менее своя классификация необходима и её идеальные параметры были бы когда одна тема охватывает не более 10 тысяч наборов данных или временных рядов. То есть если мы имеем базу в 22 миллиона набора датасетов, то тематик должно быть не менее 2.2 тысяч, а ещё лучше не менее 5 тысяч. Тогда пользователь получает возможность быстро сузить поиск до нужной ему темы. Тогда у Dateno появляется ещё одна важная модель его применения, это подписка на появление нужных данных в одной или нескольких узких областях избегая ложных срабатываний при ключевых словах.

Без ИИ тут, кстати, не обойтись и ребята из OpenAlex использовали модель GPT 3.5 Turbo [7] для кластеризации научных работ и подбора названий выявленным кластерам.

Ссылки:
[1] https://docs.google.com/document/d/1bDopkhuGieQ4F8gGNj7sEc8WSE8mvLZS/edit?tab=t.0
[2] https://docs.google.com/spreadsheets/d/1v-MAq64x4YjhO7RWcB-yrKV5D_2vOOsxl4u6GBKEXY8/edit?gid=983250122#gid=983250122
[3] https://zenodo.org/records/10560276
[4] https://dateno.io
[5] https://op.europa.eu/en/web/eu-vocabularies/concept-scheme/-/resource?uri=http://publications.europa.eu/resource/authority/data-theme
[6] https://apps.usgs.gov/thesaurus/term-simple.php?thcode=15&code=000
[7] https://www.leidenmadtrics.nl/articles/an-open-approach-for-classifying-research-publications

#opendata #opensource #dateno #thoughts
Полезные ссылки про данные, технологии и не только:
- Towards Inserting One Billion Rows in SQLite Under A Minute [1] заметка 2021 года о том как высокопроизводительно загружать миллиарды строк а базы SQLite. Актуально для всех кто делает высокопроизводительные системы не имея больших бюджетов.
- GROBID [2] переводится как GeneRation Of BIbliographic Data, инструментарий с открытым кодом по извлечению структурированного содержания из PDF файлов, особенно применяется к научным статьям. Активно используется для извлечения библиографических данных.
- Depsy [3] онлайн база цитирования пакетов с открытым кодом в научных статьях. От той же команды что делает OpenAlex. Этот проект более не развивается уже лет 7, а жаль, но исходный код доступен как и API.
- Cadent Open Data [4] раздел с открытыми данных в Cadent, британской газовой компании. Открытые данные прописаны в стратегии цифровизации и отдельный портал с данными [5] которые раскрываются по регуляторным требованиям и инициативами по data sharing
- Schneider Electric Datasets [6] коллекция наборов данных на портале для разработчиков Schneider Electric. В основном данные по энергопотреблению. Бесплатные, но требуют регистрации

Ссылки:
[1] https://avi.im/blag/2021/fast-sqlite-inserts/
[2] https://grobid.readthedocs.io/en/latest/
[3] http://depsy.org
[4] https://cadentgas.com/reports/open-data
[5] https://cadentgas.opendatasoft.com/pages/welcome/
[6] https://exchange.se.com/develop/developer-resources?source=developerResources&developerResources=Datasets

#opendata #opensource #readings
Для разнообразия, следующим постом опрос Что делать с развитием открытых данных в России? А пока вы ещё не прочитали сам опрос и не начали его проходить, важный вопрос в том что вообще делать. Лично мне, в каком-то смысле, это проще в той части что есть области жизни которым текущая политическая ситуация в РФ не мешает. Не помогает, но и не мешает. И своё любопытство в данных я всегда могу наполнить в Dateno или в Open Data Armenia. Но в России тренды не в развитие открытости. Так что вот такой далее опрос;)

#opendata #russia #polls
Можно подвести и прокомментировать итоги опроса, всего 216 проголосовавших это неплохо для такой не самой широкой темы.

- Большинство поддерживают большую открытость данных для исследователей и я тут соглашусь, это важная тема во всех смыслах, развитая во всех странах где есть живая наука и, почему-то, запущенная в России.
- В том чтобы продолжать убеждать далее чиновников главная сложность в том что госинициативы, либо мертвы вспомним data.gov.ru, либо постепенно гибнут, вспомним opendata.mkrf.ru или бессмысленны, вспомним многие региональные порталы. Нужна точка опоры, а этой точки опоры сейчас нет(
- Дататоны и премии - это то о чём я давно думаю и как только будет окончательно понятен формат и темы мы такое сделаем от Инфокультуры и партнёров. Если, кстати, Вы готовы быть спонсорами таких дататонов и премий или видите модели партнёрства по ним - напишите мне
- Убедить бизнес публиковать данные - это давняя моя цель, пока плоходостижимая потому как российский бизнес до открытого кода то дозрел не так давно, а с данными ещё сложнее. Но руки здесь опускать не стоит

В целом опрос на удивление оптимистичный, я думал что гораздо больше читателей отреагируют что "уже ничего не исправить".

#opendata
Совсем не первоапрельская новость, закрывается проект openSNP [1] о чём пишет его создатель у себя в блоге [2]. Это была и пока ещё есть открытая база расшифрованных геномов позволявшая искать родственников, делиться результатами расшифровки генома с другими, а исследователям ещё и находить связи между генотипом и фенотипом.

Причин закрытия проекта множество, важнейшая озвучиваемая автором - это всё большее внимание к этим данным со стороны авторитарных властей. Важно то что пользователи могли делиться добровольно своими данными с исследователями.

В рассуждениях автора стоит ещё и почитать об общем кризисе открытых проектов - открытого кода, репозиториев, Википедии и др. Причины разные, но связанные - это хайп вокруг ИИ, неэтичные ИИ боты и др.

Я к этим мыслям добавлю лишь то что о кризисе движений за открытость слышу уже давно и оно звучит именно в контекстах отступления от демократии и том что "ИИ пожирает всё". Это демотивирует многих

А судьба проекта openSNP, безусловно, печалит.

Ссылки:
[1] https://opensnp.org
[2] https://tzovar.as/sunsetting-opensnp/

#opendata #openaccess #genetics #data
В рубрике как это устроено у них портал открытых данных Франции data.gouv.fr [1]. Всего на портале опубликовано 61 947 набора данных, на 2 апреля 2025 г, а также 338 точек подключения к API к которым предоставлена документация, есть возможность связаться с разработчиками и тд.

Особенность их портала в большом сообществе из 131.4 тысячи зарегистрированных пользователей и 15.1 тысяче дискуссий вокруг опубликованных датасетов и API.

Параллельно с этим они создают портал открытых научных данных entrepot.recherche.data.gouv.fr [2] на базе продукта Dataverse . Там сейчас чуть менее 7 тысяч наборов данных и список постоянно растёт.

Многие команды и компании публикуют свои проекты сделанные на открытых данных Франции в специальном разделе на сайте [3].

Во Франции порталом занимается их национальная команда Etalab, почти все что они делают является открытым кодом и портал открытых данных создан на непривычном ПО - uData, используемом ещё в паре-тройке стран.

Ссылки:
[1] https://www.data.gouv.fr
[2] https://entrepot.recherche.data.gouv.fr
[3] https://www.data.gouv.fr/fr/reuses/

#opendata #datasets #france #data
В продолжение портала открытых данных Франции, из его фишек то что можно зарегистрироваться и публиковать свои датасеты. Вот я там разместил реестр каталогов данных из Dateno [1], просто примера ради. Потом могу добавить отдельно API Dateno (но там уже будет не CC-BY лицензия).

Хороший государственный портал открытых данных должен позволять публиковать данные не только госорганами.

Ссылки:
[1] https://www.data.gouv.fr/fr/datasets/data-portals-registry/

#opendata #dateno #datacatalogs