В рубрике интересных наборов данных Software mentions - это большой набор данных всех упоминаний программных продуктов в научных статьях и литературе по биомедицине. В репозитории представлен код которым собирался этот набор данных [1] и сам набор данных также доступен [2]. В нём, в общей сложности, 1,12 миллион упоминаний программных продуктов извлеченных из 2,4 миллионов научных статей извлеченных из NIH PMC-OA Commercial subset, 481 упоминание программных продуктов из NIH PMC-OA Non-Commercial subset и 934 тысячи упоминаний программных продуктов из 4 миллионов статей в NIH Publishers Collection. Это всё около 4Гб в сжатом виде.
Поэтому если кратко, то это большой набор данных, дающий, как минимум, возможность оценить популярность инструментов и языков разработки используемых специалистами в области биоинформатики. Удивительно что пока никто не визуализировал эти данных, скорее всего просто мало кто знает о существовании этого набора данных.
Создание набора данных профинансировал фонд Chan-Zukerberg Initiative, который стоит упомянуть отдельно как один из крупнейших в мире фондов поддерживающий открытую науку и открытые инструменты для учёных в частности [3]. Это, в принципе, из тех инициатив которые являются другой гранью биг теха. С одной стороны, Facebook, одна из компаний построенных исключительно на недружелюбной слежке за пользователями, а с другой Цукерберг создал и развивает не имитационную, а самую настоящую некоммерческую инициативу без каких-либо "камней за пазухой".
У многих биг тех компаний и их основателей похожий подход. Да, в каких-то вопросах их репутация может быть крайне плохой, а в других наоборот обвинить не в чем. Мир совсем не чёрно белый.
Ссылки։
[1] https://github.com/chanzuckerberg/software-mentions
[2] https://doi.org/10.5061/dryad.6wwpzgn2c
[3] https://tech.chanzuckerberg.com/scitech/
#openaccess #openscience #scitech #datasets #data #opendata
Поэтому если кратко, то это большой набор данных, дающий, как минимум, возможность оценить популярность инструментов и языков разработки используемых специалистами в области биоинформатики. Удивительно что пока никто не визуализировал эти данных, скорее всего просто мало кто знает о существовании этого набора данных.
Создание набора данных профинансировал фонд Chan-Zukerberg Initiative, который стоит упомянуть отдельно как один из крупнейших в мире фондов поддерживающий открытую науку и открытые инструменты для учёных в частности [3]. Это, в принципе, из тех инициатив которые являются другой гранью биг теха. С одной стороны, Facebook, одна из компаний построенных исключительно на недружелюбной слежке за пользователями, а с другой Цукерберг создал и развивает не имитационную, а самую настоящую некоммерческую инициативу без каких-либо "камней за пазухой".
У многих биг тех компаний и их основателей похожий подход. Да, в каких-то вопросах их репутация может быть крайне плохой, а в других наоборот обвинить не в чем. Мир совсем не чёрно белый.
Ссылки։
[1] https://github.com/chanzuckerberg/software-mentions
[2] https://doi.org/10.5061/dryad.6wwpzgn2c
[3] https://tech.chanzuckerberg.com/scitech/
#openaccess #openscience #scitech #datasets #data #opendata
GitHub
GitHub - chanzuckerberg/software-mentions
Contribute to chanzuckerberg/software-mentions development by creating an account on GitHub.