Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
К вопросу о том что есть и чего нет в Dateno в контексте того доступно через наше API и того что исследователи уже искали по наукометрии. Есть специфика данных в Dateno в том что пока ещё исследовательских данных в нём маловато и по очень объективным причинам.

В реестре каталогов данных Dateno сейчас 874 репозитория научных данных из которых проиндексировано пока только 99 репозиториев, а это чуть более 11% источников метаданных такого типа. И даже эти 874 репозитория - это не все репозитории научных данных в мире, а наиболее очевидные. Точное число, скорее всего, никто не знает потому что реестры вроде Re3Data и Fairsharing более широко трактуют научные дата-ресурсы и включают туда не только каталоги данных, но и базы данных.

Возвращаясь к источникам, в чём с ними сложность:
1. Коммерческие каталоги научных данных вроде облачных продуктов Elsevier и Figshare значительно ограничивают возможности их индексирования. Проиндексировать их можно, но высока вероятность блокировок с их стороны. это примерно 34% каталогов научных данных в реестре Dateno.
2. Каталоги результатов научной деятельности на DSpace легко индексируются, но устроены так что невозможно отдельно индексировать только датасеты. Чтобы проиндексировать их надо скачать все метаданные всех объектов и далее уже фильтровать датасеты. Причем последних будет не более 5% от всего общего числа материалов
3. Некоторые каталоги научных данных вроде тех что основаны Thredds или Galaxy имеют очень скудный набор метаданных, по сути они выглядят как большие научные файлохранилища. Правда и области применения у них узкие: метеорология и биоинформатика, поэтому они пока отложены
4. Для научных репозиториев данных главное API до сих пор это OAI-PMH 2.0. Очень унаследованное, очень неудобное по многим критериям, очень стандартизированное и обладающее критическим недостатком: оно не отдаёт ссылки на файлы в метаданных. Иначе говоря карточку датасета получить можно с базовыми полями метаданных, но метаданных связанных с ним файлов нельзя. Это решается, но тем не менее.
5. Есть очень крупные источники научных наборов данных в OpenAIRE, ScienceDB, ScienceBase, DataCite, BASE и ещё ряде других. Проиндексировав даже парочку из них можно добавить сразу +10-20 миллионов записей, но..., качество датасетов будет посредственное. Честно говоря я тяну с их подключением так долго как могу не потому что это сложно, а потому что качество содержания поискового индекса снизится, у этих источников нет ссылок на ресурсы. Потому что все они агрегируют через OAI-PMH 2.0 Если бы единственным критерием качества в Dateno было бы только число записей, то вопросов бы не было.

Итого это развёрнутый ответ на невысказанный вопрос "Почему в Dateno так мало научных данных, всего 488 тысяч датасетов?" Краткий ответ: из-за качества данных, а более полный ответ выше.

В любом случае крайне важно что ключевой продукт Dateno, резко отличающий его от Google Dataset Search, - это открытый индекс. Помимо открытого API к поиску это ещё и открытый реестр каталогов данных и открытая статистика.

При этом открытый индекс - это большая ответственность потому что все косяки вылезают наружу достаточно быстро, ошибки находятся, также очень быстро.

Открытый индекс - это, также, дата-продукт и у него куча метрик качества о которых я когда-нибудь расскажу в подробностях, но скорее это будет в форме выступления на конференции чем короткая заметка.

А пока покажу некоторые существенные отличия и сравнение GDS (Google Dataset Search) и Dateno.

#opendata #dateno #thoughts #datacatalogs #datasets
November 16, 2024
November 19, 2024
November 25, 2024
November 28, 2024
В продолжение текста о том как искать данные в принципе, поговорим о том где искать геоданные. С геоданными, всё, и лучше, и хуже, но важнее то что всё по другому. Иногда очень по другому.

Первое что важно знать это то что геоданные не индексируются Google Dataset Search и большей частью поисковиков которые я ранее не упоминал. Очень часто геоданные находятся, в принципе, за пределами обычного поиска и искать их необходимо в специальных каталогах и специальных сервисах.

Конечно, в первую очередь я порекомендую Dateno ;) где проиндексировано более чем 5.5 миллионов геоданных-ресурсов из геопорталов, практически по всем странам.

Но есть и другие источники:
- Geoseer - единственный известный мне поисковик по геоданным. Чем-то похож на Dateno, а Dateno на него. Охватывает 3.5 миллиона точек с гео API, в основном WMS, WFS, WCS и WMTS.
- ArcGIS Hub - портал открытых данных на базе платформы ArcGIS, охватывает все экземпляры порталов с открытыми данными на базе облачного сервиса ArcGIS
- ArcGIS Search - поисковик от ArcGIS по всем общедоступным ресурсам на их геосерверах. Шире чем поиск ArcGIS Hub, охватывает не только цифровые слои, но и другие геоартефакты
- Spatial Data Catalog - каталог данных от Carto, более 11 тысяч наборов данных удобных для интеграции с их платформой. Примерно 2/3 данных доступны только за деньги, считаются premium data
- Spatineo Directory - не каталог данных, но каталог источников геоданных, геосерверов. Можно найти нужны сервер и искать уже в нём.

А также стоит обратить внимание на порталы США: geoplatform.gov, sciencebase.gov и Европы data.europe.eu, где тоже много геоданных

Источников геоданных куда больше, это только основные ресурсы. А есть ещё базы спутниковых снимков, интерфейсы доступа к ним через стандарт STAC и многое другое. Об этом я регулярно пишу и ещё напишу здесь.

#opendata #geodata #datacatalogs
November 28, 2024
December 3, 2024
December 9, 2024
В продолжение про зрелость открытых данных в Европе, коротко о том как в Европейском союзе устроена работа с открытыми данными.

1. У ЕС сформировалось зрелое законодательство по открытости охватывающее все страны, в которых приняты соответствующие законы, созданы порталы с открытыми данными, мониторинг их публикации и множество инициатив так или иначе с этим связанных.
2. Еврокомиссия ведёт портал data.europa.eu в котором аггрегируется уже более 1.8 миллиона наборов данных из порталов открытых данных ЕС
3. Около 2/3 всех опубликованных данных на национальных порталах открытых данных в ЕС - это геоданные.
4. В ЕС особенно много порталов данных и геопорталов регионального и муниципального уровня. В реестре каталогов данных Dateno их 467, с оговоркой что в реальности их значительно больше
5. Значительная часть региональных и городских порталов открытых данных работают на базе SaaS продукта от французского разработчика OpenDataSoft
6. В отличие от США в ЕС публикации на национальных порталах открытых данных и в научных репозиториях разделены и научные данные европейских исследователей представлены в системе OpeanAIRE
7. Важная особенность Евросоюза - это раскрытие данных особой ценности (HVD, High Value Datasets). Наборы данных про которые точно известно что они востребованы пользователями.
8. В Dateno чуть менее 7 миллионов наборов данных собраны из стран ЕС или охватывают страны ЕС. Большая часть этих данных - это геоданные, около 55%
9. При этом Dateno индексирует лишь половину национальных порталов стран ЕС поскольку другая половина использует нетиповое ПО. Откуда тогда такой охват? Из большого числа малых региональных и городских порталов данных и геопорталов, которые не попадают в общеевропейский data.europa.eu. Постепенно в Dateno будут все европейские национальные порталы данных тоже
10. Ещё одна тема не раскрываемая в отчетах Open Data Maturity - это доступность статистики. В ЕС наднациональная статистика Евростата и ЕЦБ хорошо представлена для любых пользователей, включая тех кто работает с ними как с базами данных. На национальном уровне большой разброс разных систем публикации индикаторов. но более всего используется шведская система PxWeb
11. В ЕС до сих пор популярно предоставление национальных данных через интерфейсы SPARQL и как связанные данные. Такое мало где практикуется в мире, слабо связано с современными инструментами работы с данными и дата инженерии, но имеет прямую взаимосвязь с работой с научными данными и онтологиями.

#opendata #europe #datacatalogs
December 18, 2024
December 19, 2024
December 23, 2024