Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике большие наборы открытых данных открытые данные о химических элементах, формулах, веществах и тд.

- PubChem [1] одна из крупнейших в мире баз данных по химическим веществам с параметрами веществ и идентификаторами и описаниями из десятков источников данных. Несколько десятков гигабайт архивов экспортированных в XML файлов.
-HMDB [2] The Human Metabolome Database (HMDB) - база молекул метаболитов в человеческом теле. Общий объём, включая спектральные данные, более 20GB архива с XML файлами
- MassBank Europe [3] база спектральных масс высокого качества. Данных относительно немного, сотни мегабайт выложенных на Github

А также многие другие. В PubChem перечислено 844 источника данных [4] многие из которых включают полные дампы открытых данных.

Ссылки:
[1] https://pubchemdocs.ncbi.nlm.nih.gov/downloads
[2] https://hmdb.ca/downloads
[3] https://massbank.eu/MassBank/
[4] https://pubchem.ncbi.nlm.nih.gov/sources

#opendata #chemistry #openaccess #data #datasets
В рубрике как это устроено у них платформа ioChem-DB [1] каталог данных в области вычислительной химии и материаловедения, не сомневаюсь что большинство химиков работающих с химическими формулами с ним сталкивались.

Его особенность в том что это по-факту:
- специальный набор инструментов по подготовке и преобразованию данных
- модель данных для описания данных
- платформа на базе DSpace для публикации данных в первичном и в преобразованных форматах.

Основной сайт агрегирует данные собранные из других порталов.

Большая часть данных публикуется в форматах Chemical Markup Language (CML) [2] и под свободными лицензиями.

Важная особенность в том что названия и описания этих наборов данных могут быть крайне минималистичны и состоять только из какого-нибудь кода, например 000112758 [3]

Поэтому я лично не знаю как химики используют там поиск и не могу сказать что понимаю как добавлять такие данные в Dateno [4] потому что хоть это и датасеты, но кто сможет найти их с таким-то описанием?

Ссылки:
[1] https://www.iochem-bd.org
[2] https://www.xml-cml.org
[3] https://iochem-bd.bsc.es/browse/handle/100/87916
[4] https://dateno.io

#opendata #chemistry #opensource #datasets #dateno