Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2].

Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform

Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.

Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.

Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets

#finland #research #openaccess #opendata #openscience
Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.

В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.

У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,

Ссылки:
[1] https://www.base-search.net

#opendata #openaccess #openscience #researchdata #datasearch
В рубрике интересных наборов данных CC-MAIN-2021-31-PDF-UNTRUNCATED [1] коллекция из 8 миллионов PDF документов обнаруженных с помощью Common Crawl и выгруженных в единую коллекцию. Включает как сами файлы, так и метаданные по каждому файлу, включая геолокацию каждого документа по IP сервера и метаданные извлечённые с помощью pdfinfo. Отличается от Common Crawl тем что документы в полном размере, а в Common Crawl они обрезаны все до 1 мегабайта.

На момент создания это крупнейший единый корпус PDF документов с наиболее очевидным применением в задачах по digital forensics (цифровому дознанию).

Кстати, для тех кто интересуется, в принципе, данными по этой теме, Digital Corpora [2] это как раз проект с коллекциями документов и данных для обучения цифровому дознанию. Кроме PDF документов там ещё немало всего, дампов устройств, образов дисков, дампов сетевой активности и коллекций файлов.

Ссылки:
[1] https://digitalcorpora.org/corpora/file-corpora/cc-main-2021-31-pdf-untruncated/
[2] https://digitalcorpora.org

#opendata #security #forensics #datasets
В рубрике интересных наборов данных Astropedia [1] портал геологических и географических данных о планетах Солнечной системы, охватывает все планеты и часть их спутников. Создан и поддерживается USGS совместно с NASA (что показательно, занимается им Геологическая служба США).

Данные включают, как растровые карты пригодные для интеграции в ГИС, так и данные справочников и номенклатур, данных измерительных станций и так далее.

У каждого набора данных много подробностей и метаданных по контролю качества, тому в какой среде он создан и как его использовать и так далее. А интерфейс каталога включает не только перечень наборов данных, но и навигацию через выбор объекта в солнечной системе.

Это хороший пример современного курируемого каталога исследовательских данных по очень специфической теме.

Ссылки:
[1] https://astrogeology.usgs.gov

#opendata #datasets #astonomy #astrogeology
В рубрике как это устроено у них канадский портал публикации микроданных опросов посвящённых COVID-19 CITF DATA PORTAL [1] где CITF расшифровывается как he COVID-19 Immunity Task Force, рабочая группа по иммунитету от COVID. В отличие от порталов открытых данных подобные порталы опросов не бывают открытыми в виду того что содержащиеся в них данные содержат персональные данные опрашиваемых или же поскольку персональные данные могут быть из них восстановлены. Такие ресурсы ещё называют каталогами микроданных, их довольно много в мире.

Хотя эти данные редко доступны широкой аудитории, они доступны исследователям через формальные запросы и процедуры их одобрения.

Хотя здесь и нет открытых данных, но есть открытый код и конкретно CITF Data Portal создан на базе открытого ПО для эпидемиологии Obiba Mica [3].

Ссылки:
[1] https://portal.citf.mcgill.ca/
[2] https://www.covid19immunitytaskforce.ca
[3] https://www.obiba.org

#opendata #datacatalogs #microdata #canada
Любопытный доклад Cross-Border Data Policy Index [1] об уровне закрытости местных данных при кросс-граничной передаче.

Авторы доклада из Global Data Alliance объединяющего многочисленные глобальные компании в сфере цифровых продуктов, ритейла, страхования, здравоохранения и др. В общем всех тех кто зарабатывает на том что их бизнес глобален.

На картинке можно увидеть что самые жёсткие запреты теперь в России и в Китае.

Правда сам текст доклада короткий и скорее он инфографика чем предложение для регулирования, но в целом отражает позицию глобальных компаний - чем больше ограничений, тем хуже их бизнес и международная торговля.

Это важно помнить понимая это не позиция защиты данных пользователей, а позиция экономической выгоды причём именно для этой группы бизнеса.

Ссылки:
[1] https://globaldataalliance.org/resource/cross-border-data-policy-index/

#data #privacy
В рубрике полезных инструментов для работы с данными Jupyter AI [1] продукта который приносит AI в Jupyter Notebook. Фактически инструмент позволяет объяснять код, генерировать новые тетрадки, искать документацию и переписывать код. Выглядит полезно хотя его ещё не пробовал, но точно стоит попробовать создавая какую-то новую тетрадку в Jupyter.

Ссылки:
[1] https://jupyter-ai.readthedocs.io/en/latest/index.html

#opensource #ai #jupyter
Linee Guida recanti regole tecniche per l’apertura dei dati e il riutilizzo dell’informazione del settore pubblico [1] свежее руководство для органов власти в Италии по публикации открытых данных. Весьма детальное, хорошо проработанное, с чёткими рекомендациями и требованиями. В частности рекомендуют везде использовать CC-BY 4.0 в качестве лицензии объясняют это в сравнении с другими лицензиями CC0, CDLA 2.0, ODBL и другими.

Текст полезный хотя и на итальянском языке, в основном он понятен.

Ссылки:
[1] https://www.agid.gov.it/sites/default/files/repository_files/lg-open-data_v.1.0_1.pdf

#opendata #guidelines #italy
Как и где искать данные? Я несколько раз ранее писал про разные поисковые системы по открытым / доступным данным и список поисковиков у меня постоянно обновляется так что в этом посте их актуализированная подборка:

- Google Dataset Search - единственный поиск от крупного игрока поисковых систем, в данном случае Google. Ищет по датасетам найденным поисковой системой на веб страницах где размечен объект DataSet из Schema.org. Это, с одной стороны делает его одним из крупнейших поисковых индексов по данным в мире (45 миллионов наборов данных из 15 тысяч источников на начало 2023 года), а с другой очень сильно поиск отравлен сеошниками, даже если искать бесплатные данные. Также результаты этого поиска теперь подмешиваются в основной поиск Google при релевантных запросах

- OpenAIRE - это не в чистом виде поиск по данным, но поиск по результатам научной деятельности, Данных там тоже много, от 5 до 17 миллионов наборов данных, смотря как классифицировать объекты поиска поскольку кроме машиночитаемых таблиц там к данным отнесены ещё и изображения, видео и аудио записи. Тем не менее, даже со всеми оговорками, это один из крупнейших поисковиков по данным в мире.

- DataCite Search - поисковик от компании DataCite выдающей DOI исследователям публикующим данные. Плюс в том что их база наборов данных весьма обширна, это фактически все наборы данных публикуемые исследователями официально. Минус в том что контроля за назначением DOI нет и многочисленные ссылки там ведут просто на статьи и другие объекты, но не данные. Тем не менее база объектов поиска там обширна, более 20 миллионов записей и работа над качеством продолжается. Это один из наиболее крупных поисковиков по научным данным.

- BASE - Bielefeld Academic Search Engine, академическая поисковая система от Билефельдского университета в Германии. Охватывает более чем 339 миллионов результатов научной деятельности из которых не менее 18.5 миллионов составляют наборы данных. Конечно надо делать оговорку на то что в основе поиска по данным там индекс DataCite

- FindData - поисковая система по научным данным от Компьютерного сетевого информационного центра при Китайской академии наук. Тесно интегрирован с другим их проектом, ScienceDb. Преимущественно ищет по китайским и связанным с Китаем источникам научных данных.

- Research Data Australia - поисковик по данным как часть научной инфраструктуры Австралии. Более 200 тысяч наборов данных, только из местных каталогов данных, причём охватывает как государственные, так и научные каталоги, а также каталоги геоданных. Поддерживает поиск по территориям на карте, достаточно выделить участок карты Австралии и он выдаст все связанные наборы данных.

- Data.europe.eu - общеевропейский портал открытых данных постепенно вбирающий в себя все наборы данных из национальных порталов Евросоюза и из геопорталов в рамках инициативы INSPIRE и не только. Крупнейший наднациональный портал открытых данных в мире.

- Zenodo - крупнейший репозиторий научных данных в Европейском союзе и крупнейшая инсталляция открытого ПО для ведения коллекций цифровых объектов Invenio. Используется учёными по всему миру для публикации своих данных из-за бесплатности и автоматической выдачи DOI.

#opendata #datasets #data #datasearch
В рубрике интересных наборов данных визуализация и набор данных по тенденциям роста растений (надпочвенного покрова) в Евразии. Охватывает всю Среднюю Азию, Монголию и часть России и Китая. По выводам там получается что зелёного покрова за 20 лет стало скорее больше. А само исследование проводилось на базе спутниковых снимков MODIS 2002–2020 (проект NASA) [2].

У исследования полностью опубликованы данные, общим объёмом 1.2Gb.

У исследователей из той же группы есть похожая публикация по кавказскому региону с охватом Армении, Грузии, Азербайджана и частично Турции, России и Ирана. Также с открытыми данными.

Ссылки:
[1] https://silvis.forest.wisc.edu/data/eurasia-trends/
[2] https://modis.gsfc.nasa.gov
[3] https://silvis.forest.wisc.edu/data2/vegetation-change-grasslands-caucasus/

#opendata #caucasus #middleasia #datasets #vegetation
В рубрике бизнеса на открытых данных Social Explorer [1], продукт и одноимённая компания в США предоставляющая аналитический сервис с визуализацией данных на картах с детализацией до отдельных графств (Counties), аналог российских муниципальных образований. Практически все данные в их продукте - это общедоступные данные переписи США, избирательных комиссий, отчетов ФБР по преступности и других статистических индикаторов публикуемых в США с довольно высокой детализацией. Особенность продукта в том что он почти полностью ориентирован на университетскую подписку. Университеты приобретают подписку и предоставляют доступ преподавателям и студентам. Поэтому в платформе отдельно реализованы разделы по быстрому старту по тому как учить и как учиться с ней работать.

Ссылки:
[1] https://www.socialexplorer.com

#startups #opendata #geodata #usa