В рубрике как это устроено у них открытые научные данные в такой, далеко не всем известной научной дисциплине как материаловедение.
Как и ряд других дисциплин она активно сдвигается в сторону открытости науки и открытости исследовательских данных.
Вот пример, 4-х научных проектов:
- AFlow [1] - база из 3.5 миллионов компонентов материалов и более чем 734 миллионов их свойств, под Public Domain для научного использования
- OQDM [2] база рассчитанных термодинамических и структурных характеристик более чем 1.2 миллионов материалов. Под Creative Commons
- The Materials Project [3] база по более чем 320 тысячам молекулам и материалам, а также проекты по машинному обучению предсказания свойств материалов
- NOMADS [4] база из 13 миллионов записей о материалах, как теоретических, так и полученных из экспериментов
У всех проектов лицензии на распространение материалов или Creative Commons или Public Domain, есть API на получение и на загрузку данных. Их наборы данных и отдельные записи индексируются научными поисковиками и агрегаторами. Ко всем есть API, библиотеки на Python для автоматической работы с данными, открытый код и сформировавшаяся экосистема.
Общий объём раскрываемых данных измеряется в сотнях теребайт. Начиная с 100 GB в OQMD и до 119 TB в NOMAD.
Ссылки:
[1] http://aflowlib.org/
[2] https://oqmd.org/
[3] https://next-gen.materialsproject.org/
[4] https://nomad-lab.eu/nomad-lab/
#opendata #openaccess #openscience #science #research #materials #molecules
Как и ряд других дисциплин она активно сдвигается в сторону открытости науки и открытости исследовательских данных.
Вот пример, 4-х научных проектов:
- AFlow [1] - база из 3.5 миллионов компонентов материалов и более чем 734 миллионов их свойств, под Public Domain для научного использования
- OQDM [2] база рассчитанных термодинамических и структурных характеристик более чем 1.2 миллионов материалов. Под Creative Commons
- The Materials Project [3] база по более чем 320 тысячам молекулам и материалам, а также проекты по машинному обучению предсказания свойств материалов
- NOMADS [4] база из 13 миллионов записей о материалах, как теоретических, так и полученных из экспериментов
У всех проектов лицензии на распространение материалов или Creative Commons или Public Domain, есть API на получение и на загрузку данных. Их наборы данных и отдельные записи индексируются научными поисковиками и агрегаторами. Ко всем есть API, библиотеки на Python для автоматической работы с данными, открытый код и сформировавшаяся экосистема.
Общий объём раскрываемых данных измеряется в сотнях теребайт. Начиная с 100 GB в OQMD и до 119 TB в NOMAD.
Ссылки:
[1] http://aflowlib.org/
[2] https://oqmd.org/
[3] https://next-gen.materialsproject.org/
[4] https://nomad-lab.eu/nomad-lab/
#opendata #openaccess #openscience #science #research #materials #molecules
Полезные ссылки про данные, технологии и не только:
AI & Science
- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.
Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.
Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).
Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/
#opendata #opensource #openaccess #ai #science #government #data
AI & Science
- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.
Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.
Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).
Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/
#opendata #opensource #openaccess #ai #science #government #data
GitHub
GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬 - SakanaAI/AI-Scientist
Я лично не пишу научных статей, потому что или работа с данными, или писать тексты. Но немало статей я читаю, почти всегда по очень узким темам и пользуюсь для этого, в основном, Semantic Scholar и подобными инструментами. Смотрю сейчас Ai2 Paper Finder [1] от института Аллена и они в недавнем его анонсе [2] пообещали что он умеет находить очень релевантные ответы по по очень узким темам. Собственно вот пример запроса по узкой интересной мне теме и он нашёл по ней 49 работ.
Вот это очень интересный результат, в списке интересных мне инструментов прибавилось однозначно.
Там же в анонсе у них есть ссылки на схожие продукты в этой области и на бенчмарки LitSearch [3] и Pasa [4] для измерения качества поиска по научным работам работам.
Ссылки:
[1] https://paperfinder.allen.ai/
[2] https://allenai.org/blog/paper-finder
[3] https://github.com/princeton-nlp/LitSearch
[4] https://github.com/bytedance/pasa
#ai #openaccess #opensource #science
Вот это очень интересный результат, в списке интересных мне инструментов прибавилось однозначно.
Там же в анонсе у них есть ссылки на схожие продукты в этой области и на бенчмарки LitSearch [3] и Pasa [4] для измерения качества поиска по научным работам работам.
Ссылки:
[1] https://paperfinder.allen.ai/
[2] https://allenai.org/blog/paper-finder
[3] https://github.com/princeton-nlp/LitSearch
[4] https://github.com/bytedance/pasa
#ai #openaccess #opensource #science