Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
February 11, 2023
February 13, 2023
February 22, 2023
February 24, 2023
По поводу российского государственного портала открытых данных data.gov.ru который недавно был закрыт Минэкономразвития [1] и как пишет Ольга Пархимович у себя в канале там ещё и чудеса с обратной связью с представителями этого министерства [2], так вот ещё до появления госпортала открытых данных мы командой Инфокультуры делали портал hubofdata.ru [3] куда загружали данные которые госорганы "забывали" опубликовать как открытые и который подзабросили когда российские госорганы начали создавать свои порталы открытых данных, поскольку было, какое-то время, впечатление что данные госорганы будут публиковать.

Так вот я большого секрета не открою сказав что сделать большой негосударственный портал открытых данных можно и даже не феноменально сложно. И если Минэкономразвития собирается запускать новую версию data.gov.ru на Гостехе и за 50 млн. руб, то без министерства и без Гостеха общественный проект с большим числом наборов данных и их объёмом можно сделать в 5 раз дешевле.

Больше того, поскольку мы кроме общественного портала Hubofdata делали ещё и полу-коммерческий Datacrafter [4] то заполнить такой общероссийский портал можно сразу данными большого объёма и в хорошем качестве. Кстати, Datacrafter никуда не исчез, может быть будет перезапущен в России, может быть мигрирован в другую страну и с другими акцентами. В любом случае значительная часть собранных там данных может быть перенесена в общественный проект.

В чем же сложность тогда? На самом деле ключевая сложность в России вот уже много лет в отсутствии доступных инвестиций/грантов/средств на цифровые гражданские проекты, особенно по доступности данных. Это министерства могут сжечь любое количество потратить 50 миллионов рублей в довесок к уже потраченным без гарантии результата. Объяснить из чего складывается разница? Из того что порталы открытых данных во всём мире делают на готовых опенсорс решениях, чаще всего на CKAN, реже на DKAN, uData, Dataverse, а для геоданных Geonetwork. Развертывание любого из них в разы дешевле и практичнее разработки с нуля, если только нет плана по созданию мегафич из-за которых опенсорс продукты не подходят. А разработка с нуля на Гостехе - это удовольствие не для слабонервных, учитывая что там никаких готовых решений. Нельзя вот так просто взять и развернуть готовое решение из коробки и неизвестно можно ли будет когда-либо. Например, Datacrafter делался не на CKAN'е потому что в нём внутри структурированное NoSQL хранилище, разметчик семантических типов данных и экспорт всех данных в parquet по умолчанию. CKAN этого не умеет, пока что.

Когда есть амбиции делать национальные порталы открытых данных, то стоит ли делать их в России? Поэтому я через какое-то время анонсирую общественный портал открытых данных, пока небольшой, создаваемый для другой страны и я уже рассказывал ранее про проект Common Data Index [5] который начинается с общего реестра каталогов и порталов открытых данных в мире, а продолжится поисковой системой по всем наборам данных в общедоступных каталогах данных.

Ссылки:
[1] https://yangx.top/begtin/4714
[2] https://yangx.top/ahminfin/541
[3] https://hubofdata.ru
[4] https://datacrafter.ru
[5] https://yangx.top/begtin/4764

#opendata #russia #opengov #dataportals
April 13, 2023
В рубрике как это работает у них репозитории [больших] научных данных в области биоинформатики и не только.

GigaDB [1] репозиторий научных данных созданный командой журнала GigaScience. Создан и развивается в Гонконге, содержит 2339 наборов данных, 410263 файла общим размером около 47 ТБ (на начало мая 2023 г). Данные регулярно обновляются, а метаданные доступны по протоколу OAI-PMH используемому для обмена метаданными между репозиториями научных документов

BioStudies [2] база результатов биологических исследований включая их взаимосвязь с исследованиями в рамках работы EMBL-EBI. 2 миллиона 395 тысяч исследований и 9 миллионов 584 тысячи файлов. Данные раздаются, в том числе, через FTP и через систему обмена научными данными Globus [3]. Объём данных оценить сложно, цифры они не приводят, но он явно очень большой, сравнимый с GigaDB и, скорее всего, его превосходящий.

CSIRO Data Access portal [4] портал данных австралийского агентства CSIRO, в общем объёме чуть менее 7.5 тысяч наборов данных, все посвящены исследованиям проводимым CSIRO или в котором исследователи CSIRO принимают участие. Многие наборы данных - это большие коллекции файлов первичного наблюдения, не машиночитаемые, но также являющиеся результатом исследований.

Существует множество более узкоспециализированных репозиториев, их списки публикуют агентства финансирующие исследования и журналы принимающие научные работы:
- PLOS One recommended Repositories [5]
- The Royal Society Data Sharing [6]

И многие другие. Даже один крупный репозиторий данных в области биоинформатики по объёму хранимых данных может превосходить все национальные и региональные порталы открытых данных.

Ссылки:
[1] http://gigadb.org
[2] https://www.ebi.ac.uk/biostudies/
[3] https://www.globus.org/
[4] https://data.csiro.au/
[5] https://journals.plos.org/plosone/s/recommended-repositories
[6] https://royalsociety.org/journals/ethics-policies/data-sharing-mining/

#opendata #openaccess #openscience #datacatalogs #dataportals
May 1, 2023
May 5, 2023
Часть 2 из 2.

4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.

5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.

6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.

7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.

8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени

Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr

#opendata #commondataindex #datacatalogs #dataportals #datasets
May 7, 2023
May 17, 2023
May 18, 2023