В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2].
Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform
Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.
Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.
Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets
#finland #research #openaccess #opendata #openscience
Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform
Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.
Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.
Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets
#finland #research #openaccess #opendata #openscience
Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.
В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.
У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,
Ссылки:
[1] https://www.base-search.net
#opendata #openaccess #openscience #researchdata #datasearch
В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.
У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,
Ссылки:
[1] https://www.base-search.net
#opendata #openaccess #openscience #researchdata #datasearch
В рубрике интересных наборов данных CC-MAIN-2021-31-PDF-UNTRUNCATED [1] коллекция из 8 миллионов PDF документов обнаруженных с помощью Common Crawl и выгруженных в единую коллекцию. Включает как сами файлы, так и метаданные по каждому файлу, включая геолокацию каждого документа по IP сервера и метаданные извлечённые с помощью pdfinfo. Отличается от Common Crawl тем что документы в полном размере, а в Common Crawl они обрезаны все до 1 мегабайта.
На момент создания это крупнейший единый корпус PDF документов с наиболее очевидным применением в задачах по digital forensics (цифровому дознанию).
Кстати, для тех кто интересуется, в принципе, данными по этой теме, Digital Corpora [2] это как раз проект с коллекциями документов и данных для обучения цифровому дознанию. Кроме PDF документов там ещё немало всего, дампов устройств, образов дисков, дампов сетевой активности и коллекций файлов.
Ссылки:
[1] https://digitalcorpora.org/corpora/file-corpora/cc-main-2021-31-pdf-untruncated/
[2] https://digitalcorpora.org
#opendata #security #forensics #datasets
На момент создания это крупнейший единый корпус PDF документов с наиболее очевидным применением в задачах по digital forensics (цифровому дознанию).
Кстати, для тех кто интересуется, в принципе, данными по этой теме, Digital Corpora [2] это как раз проект с коллекциями документов и данных для обучения цифровому дознанию. Кроме PDF документов там ещё немало всего, дампов устройств, образов дисков, дампов сетевой активности и коллекций файлов.
Ссылки:
[1] https://digitalcorpora.org/corpora/file-corpora/cc-main-2021-31-pdf-untruncated/
[2] https://digitalcorpora.org
#opendata #security #forensics #datasets
В рубрике интересных наборов данных Astropedia [1] портал геологических и географических данных о планетах Солнечной системы, охватывает все планеты и часть их спутников. Создан и поддерживается USGS совместно с NASA (что показательно, занимается им Геологическая служба США).
Данные включают, как растровые карты пригодные для интеграции в ГИС, так и данные справочников и номенклатур, данных измерительных станций и так далее.
У каждого набора данных много подробностей и метаданных по контролю качества, тому в какой среде он создан и как его использовать и так далее. А интерфейс каталога включает не только перечень наборов данных, но и навигацию через выбор объекта в солнечной системе.
Это хороший пример современного курируемого каталога исследовательских данных по очень специфической теме.
Ссылки:
[1] https://astrogeology.usgs.gov
#opendata #datasets #astonomy #astrogeology
Данные включают, как растровые карты пригодные для интеграции в ГИС, так и данные справочников и номенклатур, данных измерительных станций и так далее.
У каждого набора данных много подробностей и метаданных по контролю качества, тому в какой среде он создан и как его использовать и так далее. А интерфейс каталога включает не только перечень наборов данных, но и навигацию через выбор объекта в солнечной системе.
Это хороший пример современного курируемого каталога исследовательских данных по очень специфической теме.
Ссылки:
[1] https://astrogeology.usgs.gov
#opendata #datasets #astonomy #astrogeology
В рубрике как это устроено у них канадский портал публикации микроданных опросов посвящённых COVID-19 CITF DATA PORTAL [1] где CITF расшифровывается как he COVID-19 Immunity Task Force, рабочая группа по иммунитету от COVID. В отличие от порталов открытых данных подобные порталы опросов не бывают открытыми в виду того что содержащиеся в них данные содержат персональные данные опрашиваемых или же поскольку персональные данные могут быть из них восстановлены. Такие ресурсы ещё называют каталогами микроданных, их довольно много в мире.
Хотя эти данные редко доступны широкой аудитории, они доступны исследователям через формальные запросы и процедуры их одобрения.
Хотя здесь и нет открытых данных, но есть открытый код и конкретно CITF Data Portal создан на базе открытого ПО для эпидемиологии Obiba Mica [3].
Ссылки:
[1] https://portal.citf.mcgill.ca/
[2] https://www.covid19immunitytaskforce.ca
[3] https://www.obiba.org
#opendata #datacatalogs #microdata #canada
Хотя эти данные редко доступны широкой аудитории, они доступны исследователям через формальные запросы и процедуры их одобрения.
Хотя здесь и нет открытых данных, но есть открытый код и конкретно CITF Data Portal создан на базе открытого ПО для эпидемиологии Obiba Mica [3].
Ссылки:
[1] https://portal.citf.mcgill.ca/
[2] https://www.covid19immunitytaskforce.ca
[3] https://www.obiba.org
#opendata #datacatalogs #microdata #canada
Любопытный доклад Cross-Border Data Policy Index [1] об уровне закрытости местных данных при кросс-граничной передаче.
Авторы доклада из Global Data Alliance объединяющего многочисленные глобальные компании в сфере цифровых продуктов, ритейла, страхования, здравоохранения и др. В общем всех тех кто зарабатывает на том что их бизнес глобален.
На картинке можно увидеть что самые жёсткие запреты теперь в России и в Китае.
Правда сам текст доклада короткий и скорее он инфографика чем предложение для регулирования, но в целом отражает позицию глобальных компаний - чем больше ограничений, тем хуже их бизнес и международная торговля.
Это важно помнить понимая это не позиция защиты данных пользователей, а позиция экономической выгоды причём именно для этой группы бизнеса.
Ссылки:
[1] https://globaldataalliance.org/resource/cross-border-data-policy-index/
#data #privacy
Авторы доклада из Global Data Alliance объединяющего многочисленные глобальные компании в сфере цифровых продуктов, ритейла, страхования, здравоохранения и др. В общем всех тех кто зарабатывает на том что их бизнес глобален.
На картинке можно увидеть что самые жёсткие запреты теперь в России и в Китае.
Правда сам текст доклада короткий и скорее он инфографика чем предложение для регулирования, но в целом отражает позицию глобальных компаний - чем больше ограничений, тем хуже их бизнес и международная торговля.
Это важно помнить понимая это не позиция защиты данных пользователей, а позиция экономической выгоды причём именно для этой группы бизнеса.
Ссылки:
[1] https://globaldataalliance.org/resource/cross-border-data-policy-index/
#data #privacy
В рубрике полезных инструментов для работы с данными Jupyter AI [1] продукта который приносит AI в Jupyter Notebook. Фактически инструмент позволяет объяснять код, генерировать новые тетрадки, искать документацию и переписывать код. Выглядит полезно хотя его ещё не пробовал, но точно стоит попробовать создавая какую-то новую тетрадку в Jupyter.
Ссылки:
[1] https://jupyter-ai.readthedocs.io/en/latest/index.html
#opensource #ai #jupyter
Ссылки:
[1] https://jupyter-ai.readthedocs.io/en/latest/index.html
#opensource #ai #jupyter
Linee Guida recanti regole tecniche per l’apertura dei dati e il riutilizzo dell’informazione del settore pubblico [1] свежее руководство для органов власти в Италии по публикации открытых данных. Весьма детальное, хорошо проработанное, с чёткими рекомендациями и требованиями. В частности рекомендуют везде использовать CC-BY 4.0 в качестве лицензии объясняют это в сравнении с другими лицензиями CC0, CDLA 2.0, ODBL и другими.
Текст полезный хотя и на итальянском языке, в основном он понятен.
Ссылки:
[1] https://www.agid.gov.it/sites/default/files/repository_files/lg-open-data_v.1.0_1.pdf
#opendata #guidelines #italy
Текст полезный хотя и на итальянском языке, в основном он понятен.
Ссылки:
[1] https://www.agid.gov.it/sites/default/files/repository_files/lg-open-data_v.1.0_1.pdf
#opendata #guidelines #italy
Как и где искать данные? Я несколько раз ранее писал про разные поисковые системы по открытым / доступным данным и список поисковиков у меня постоянно обновляется так что в этом посте их актуализированная подборка:
- Google Dataset Search - единственный поиск от крупного игрока поисковых систем, в данном случае Google. Ищет по датасетам найденным поисковой системой на веб страницах где размечен объект DataSet из Schema.org. Это, с одной стороны делает его одним из крупнейших поисковых индексов по данным в мире (45 миллионов наборов данных из 15 тысяч источников на начало 2023 года), а с другой очень сильно поиск отравлен сеошниками, даже если искать бесплатные данные. Также результаты этого поиска теперь подмешиваются в основной поиск Google при релевантных запросах
- OpenAIRE - это не в чистом виде поиск по данным, но поиск по результатам научной деятельности, Данных там тоже много, от 5 до 17 миллионов наборов данных, смотря как классифицировать объекты поиска поскольку кроме машиночитаемых таблиц там к данным отнесены ещё и изображения, видео и аудио записи. Тем не менее, даже со всеми оговорками, это один из крупнейших поисковиков по данным в мире.
- DataCite Search - поисковик от компании DataCite выдающей DOI исследователям публикующим данные. Плюс в том что их база наборов данных весьма обширна, это фактически все наборы данных публикуемые исследователями официально. Минус в том что контроля за назначением DOI нет и многочисленные ссылки там ведут просто на статьи и другие объекты, но не данные. Тем не менее база объектов поиска там обширна, более 20 миллионов записей и работа над качеством продолжается. Это один из наиболее крупных поисковиков по научным данным.
- BASE - Bielefeld Academic Search Engine, академическая поисковая система от Билефельдского университета в Германии. Охватывает более чем 339 миллионов результатов научной деятельности из которых не менее 18.5 миллионов составляют наборы данных. Конечно надо делать оговорку на то что в основе поиска по данным там индекс DataCite
- FindData - поисковая система по научным данным от Компьютерного сетевого информационного центра при Китайской академии наук. Тесно интегрирован с другим их проектом, ScienceDb. Преимущественно ищет по китайским и связанным с Китаем источникам научных данных.
- Research Data Australia - поисковик по данным как часть научной инфраструктуры Австралии. Более 200 тысяч наборов данных, только из местных каталогов данных, причём охватывает как государственные, так и научные каталоги, а также каталоги геоданных. Поддерживает поиск по территориям на карте, достаточно выделить участок карты Австралии и он выдаст все связанные наборы данных.
- Data.europe.eu - общеевропейский портал открытых данных постепенно вбирающий в себя все наборы данных из национальных порталов Евросоюза и из геопорталов в рамках инициативы INSPIRE и не только. Крупнейший наднациональный портал открытых данных в мире.
- Zenodo - крупнейший репозиторий научных данных в Европейском союзе и крупнейшая инсталляция открытого ПО для ведения коллекций цифровых объектов Invenio. Используется учёными по всему миру для публикации своих данных из-за бесплатности и автоматической выдачи DOI.
#opendata #datasets #data #datasearch
- Google Dataset Search - единственный поиск от крупного игрока поисковых систем, в данном случае Google. Ищет по датасетам найденным поисковой системой на веб страницах где размечен объект DataSet из Schema.org. Это, с одной стороны делает его одним из крупнейших поисковых индексов по данным в мире (45 миллионов наборов данных из 15 тысяч источников на начало 2023 года), а с другой очень сильно поиск отравлен сеошниками, даже если искать бесплатные данные. Также результаты этого поиска теперь подмешиваются в основной поиск Google при релевантных запросах
- OpenAIRE - это не в чистом виде поиск по данным, но поиск по результатам научной деятельности, Данных там тоже много, от 5 до 17 миллионов наборов данных, смотря как классифицировать объекты поиска поскольку кроме машиночитаемых таблиц там к данным отнесены ещё и изображения, видео и аудио записи. Тем не менее, даже со всеми оговорками, это один из крупнейших поисковиков по данным в мире.
- DataCite Search - поисковик от компании DataCite выдающей DOI исследователям публикующим данные. Плюс в том что их база наборов данных весьма обширна, это фактически все наборы данных публикуемые исследователями официально. Минус в том что контроля за назначением DOI нет и многочисленные ссылки там ведут просто на статьи и другие объекты, но не данные. Тем не менее база объектов поиска там обширна, более 20 миллионов записей и работа над качеством продолжается. Это один из наиболее крупных поисковиков по научным данным.
- BASE - Bielefeld Academic Search Engine, академическая поисковая система от Билефельдского университета в Германии. Охватывает более чем 339 миллионов результатов научной деятельности из которых не менее 18.5 миллионов составляют наборы данных. Конечно надо делать оговорку на то что в основе поиска по данным там индекс DataCite
- FindData - поисковая система по научным данным от Компьютерного сетевого информационного центра при Китайской академии наук. Тесно интегрирован с другим их проектом, ScienceDb. Преимущественно ищет по китайским и связанным с Китаем источникам научных данных.
- Research Data Australia - поисковик по данным как часть научной инфраструктуры Австралии. Более 200 тысяч наборов данных, только из местных каталогов данных, причём охватывает как государственные, так и научные каталоги, а также каталоги геоданных. Поддерживает поиск по территориям на карте, достаточно выделить участок карты Австралии и он выдаст все связанные наборы данных.
- Data.europe.eu - общеевропейский портал открытых данных постепенно вбирающий в себя все наборы данных из национальных порталов Евросоюза и из геопорталов в рамках инициативы INSPIRE и не только. Крупнейший наднациональный портал открытых данных в мире.
- Zenodo - крупнейший репозиторий научных данных в Европейском союзе и крупнейшая инсталляция открытого ПО для ведения коллекций цифровых объектов Invenio. Используется учёными по всему миру для публикации своих данных из-за бесплатности и автоматической выдачи DOI.
#opendata #datasets #data #datasearch
OpenAIRE - Explore
OpenAIRE | Find and Share research
OpenAIRE Explore: Over 100M of research deduplicated, 170K research software, 11M research data. One of the largest open scholarly records collection worldwide.
В рубрике интересных наборов данных визуализация и набор данных по тенденциям роста растений (надпочвенного покрова) в Евразии. Охватывает всю Среднюю Азию, Монголию и часть России и Китая. По выводам там получается что зелёного покрова за 20 лет стало скорее больше. А само исследование проводилось на базе спутниковых снимков MODIS 2002–2020 (проект NASA) [2].
У исследования полностью опубликованы данные, общим объёмом 1.2Gb.
У исследователей из той же группы есть похожая публикация по кавказскому региону с охватом Армении, Грузии, Азербайджана и частично Турции, России и Ирана. Также с открытыми данными.
Ссылки:
[1] https://silvis.forest.wisc.edu/data/eurasia-trends/
[2] https://modis.gsfc.nasa.gov
[3] https://silvis.forest.wisc.edu/data2/vegetation-change-grasslands-caucasus/
#opendata #caucasus #middleasia #datasets #vegetation
У исследования полностью опубликованы данные, общим объёмом 1.2Gb.
У исследователей из той же группы есть похожая публикация по кавказскому региону с охватом Армении, Грузии, Азербайджана и частично Турции, России и Ирана. Также с открытыми данными.
Ссылки:
[1] https://silvis.forest.wisc.edu/data/eurasia-trends/
[2] https://modis.gsfc.nasa.gov
[3] https://silvis.forest.wisc.edu/data2/vegetation-change-grasslands-caucasus/
#opendata #caucasus #middleasia #datasets #vegetation
В рубрике бизнеса на открытых данных Social Explorer [1], продукт и одноимённая компания в США предоставляющая аналитический сервис с визуализацией данных на картах с детализацией до отдельных графств (Counties), аналог российских муниципальных образований. Практически все данные в их продукте - это общедоступные данные переписи США, избирательных комиссий, отчетов ФБР по преступности и других статистических индикаторов публикуемых в США с довольно высокой детализацией. Особенность продукта в том что он почти полностью ориентирован на университетскую подписку. Университеты приобретают подписку и предоставляют доступ преподавателям и студентам. Поэтому в платформе отдельно реализованы разделы по быстрому старту по тому как учить и как учиться с ней работать.
Ссылки:
[1] https://www.socialexplorer.com
#startups #opendata #geodata #usa
Ссылки:
[1] https://www.socialexplorer.com
#startups #opendata #geodata #usa