В рубрике крупнейших наборов данных в мире GenBank [1] база геномной информации о человеке от Национального центра биотехнологической информации США. В общей сложности размер последней 263 версии базы GenBank составляет около 6.4 ТБ первичных данных и около 2.7 ТБ данных закодированных по ASN.1 [2]. Все эти данные доступны на сайте через веб интерфейс и для скачивания через FTP сервер.
В общей сложности база GenBank включает 5.13 миллиардов записей и 36.5 триллионов атрибутов/значений.
Много ли это? Да, безусловно это большие данные требующие существенных ресурсов для их обработки и анализа. И в мире геномной информации это далеко не единственный крупный архив данных.
Если сравнить его с открытыми данными публикуемыми на госпорталах открытых данных, то GenBank будет больше их всех вместе взятых, за исключением порталов с геоданными.
Ссылки:
[1] https://www.ncbi.nlm.nih.gov/genbank/
[2] https://ncbiinsights.ncbi.nlm.nih.gov/2024/10/24/genbank-release-263/
#opendata #datasets #openaccess #genetics
В общей сложности база GenBank включает 5.13 миллиардов записей и 36.5 триллионов атрибутов/значений.
Много ли это? Да, безусловно это большие данные требующие существенных ресурсов для их обработки и анализа. И в мире геномной информации это далеко не единственный крупный архив данных.
Если сравнить его с открытыми данными публикуемыми на госпорталах открытых данных, то GenBank будет больше их всех вместе взятых, за исключением порталов с геоданными.
Ссылки:
[1] https://www.ncbi.nlm.nih.gov/genbank/
[2] https://ncbiinsights.ncbi.nlm.nih.gov/2024/10/24/genbank-release-263/
#opendata #datasets #openaccess #genetics
К вопросу о том как и где искать данные, в качестве регулярного напоминания:
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов
Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные
Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.
P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз
#opendata #data #datasearch #datasets #geodata #openaccess
Поисковые системы по данным
- Dateno - поисковая система по всем видам наборов данных, геоданных и научных данных, агрегирует их из более чем 5 тысяч каталогов данных, включает 19 миллионов карточек датасетов
- Google Dataset Search - исследовательская поисковая система по датасетам от Google. Охватывает все датасеты в мире опубликованные по стандарту Schema.org Dataset, включает около 50 миллионов карточек датасетов
Поисковые системы по научным данным
- DataCite Commons - поисковик по всем датасетам которым присвоен DOI через сервис DataCite. Более 22 миллионов карточек наборов данных. Используется многими другими поисковыми системами и агрегаторами наборов данных. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- OpenAIRE - поисковая система ЕС по результатам научной деятельности включая датасеты. Около 19 миллионов карточек датасетов. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- BASE (Bielefeld Academic Search Engine) - поисковая система по научным публикациям от Bielefeld University. Включает 25 миллионов карточек датасетов из которых 22 миллиона агргеггируются из DataCite. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
- Mendeley Data - поисковик по научным данным от Elsevier, декларирует 26 миллионов карточек датасетов, в реальности многие из низ - это фрагменты единых баз данных или документы в университетских библиотеках. За их исключением реальное число наборов данных ближе к 5 миллионам. Содержит только ссылки на оригинальные публикации, но не ссылки на связанные файлы ресурсов.
Платформы и крупнейшие порталы научных данных
- Figshare - одна из крупнейших онлайн платформ для публикации научных данных. Содержит всего 2 миллиона наборов данных включая сами данные. Более половины этих наборов данных происходят из публикаций в рамках Public Library of Science (PLOS).
- OSF - открытая платформа для публикации научных данных. Точное число датасетов измерить сложно поскольку открытой статистики, или нет, или до неё сложно добраться, но можно исходить из того что это как минимум сотни тысяч наборов данных
- DataOne - каталог и агрегатор данных наук о земле. Более 777 тысяч наборов данных, включая все ресурсы/файлы к ним приложенные
Поисковики по геоданным
- GeoSeer - чуть ли не единственный специализированный поисковик по геоданным. Обещают что охватывают 3.5 миллионов точек подключения к гео API таким как WMS, WFS, WMTS и др.
P.S. Существует также большое число крупных порталов данных и агрегаторов в других областях: машинное обучение, статистика, геоданные. О них в следующий раз
#opendata #data #datasearch #datasets #geodata #openaccess
В рубрике закрытых данных в РФ с 2023 года перестал работать домен rosrid.ru на котором были доступны научные работы из ЕГИСУ НИОКТР (Единая государственная информационная система учета. научно-исследовательских, опытно-конструкторских и технологических работ гражданского назначения) и вместо него теперь работает сайт gisnauka.ru [1].
Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].
Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.
Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew
#opendata #closeddata #russia #openaccess
Ещё до обновлений 2022-2023 года в рамках ЕГИСУ НИОКТР публиковались дампы данных/метаданных научных работ. Последнюю выгрузку их в нашу дата платформу Datacrafter мы делали в 2021 году [2].
Примерно в 2022-2023 году систему ЕГИСУ НИОКТР обновляли и вместо данных дампов теперь там стали называть открытыми данными статистику. С внедрением Домена наука ничего не изменилось, сами данные недоступны и даже полнотекстовых публикаций там также не находится, хотя и в поиске есть опция их поиска.
Ссылки:
[1] https://gisnauka.ru
[2] https://datacrafter.ru/packages/rosridnew
#opendata #closeddata #russia #openaccess
К вопросу о том где и как искать данные и что такое каталоги данных, есть отдельная категория каталогов данных в виде репозиториев результатов научной деятельности в которых чего только нет, но обычно это статьи, диссертации, магистерские работы, книги и реже медиафайлы и курсы. Но там бывают и данные, чаще всего их доля не очень велика, если это не специализированный репозиторий именно для данных.
Университеты таким образом публикующие данные, чаще всего используют продукты вроде DSpace, Eprints, Elsevier Pure и ещё ряд других, менее популярных.
Ключевой вопрос включать ли их все в реестр каталогов Dateno? Если да, то по каким критериям? По числу датасетов? По доле датасетов от общей доли публикации? По потенциальной возможности что датасеты там могут появится в будущем?
Вот живой пример Архив открытого доступа Санкт-Петербургского государственного университета [1], один из немногих и возможно крупнейший ресурс раскрытия публикаций университетов в России. Всего в нём сейчас 47619 публикаций. И это не то чтобы мало, даже много. Но из них всего 17 публикаций являются наборами данных и помечены как тип Dataset. Это 0.03% от общего числа публикаций. Можно ли его считать каталогом открытых данных или нет? Добавлю что ещё и то что инсталляции DSpace без доп настроек не дают поиска по типу ресурса и чтобы найти даже эти 17 датасетов пришлось скачать метаданных все 47+ тысяч записей.
А также добавлю что есть множество репозиториев научных публикаций где датасетов совсем нет, это почти все репозитории публикаций в Армении, в Казахстане и многие репозитории российских университетов.
Но ведь данные там появится могут, так что же регулярно проверять что там данные появились и только тогда вносить их как каталоги данных?
Ссылки:
[1] https://dspace.spbu.ru
[2] https://dspace.spbu.ru/handle/11701/17114?mode=full
#opendata #openaccess #researchdata #datasets
Университеты таким образом публикующие данные, чаще всего используют продукты вроде DSpace, Eprints, Elsevier Pure и ещё ряд других, менее популярных.
Ключевой вопрос включать ли их все в реестр каталогов Dateno? Если да, то по каким критериям? По числу датасетов? По доле датасетов от общей доли публикации? По потенциальной возможности что датасеты там могут появится в будущем?
Вот живой пример Архив открытого доступа Санкт-Петербургского государственного университета [1], один из немногих и возможно крупнейший ресурс раскрытия публикаций университетов в России. Всего в нём сейчас 47619 публикаций. И это не то чтобы мало, даже много. Но из них всего 17 публикаций являются наборами данных и помечены как тип Dataset. Это 0.03% от общего числа публикаций. Можно ли его считать каталогом открытых данных или нет? Добавлю что ещё и то что инсталляции DSpace без доп настроек не дают поиска по типу ресурса и чтобы найти даже эти 17 датасетов пришлось скачать метаданных все 47+ тысяч записей.
А также добавлю что есть множество репозиториев научных публикаций где датасетов совсем нет, это почти все репозитории публикаций в Армении, в Казахстане и многие репозитории российских университетов.
Но ведь данные там появится могут, так что же регулярно проверять что там данные появились и только тогда вносить их как каталоги данных?
Ссылки:
[1] https://dspace.spbu.ru
[2] https://dspace.spbu.ru/handle/11701/17114?mode=full
#opendata #openaccess #researchdata #datasets
Подборка чтения про данные, технологии и не только:
- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]
- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.
- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.
- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.
- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.
Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen
#opendata #opensource #openaccess #readings #geo #spatial
- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]
- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.
- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.
- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.
- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.
Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen
#opendata #opensource #openaccess #readings #geo #spatial