Ivan Begtin
8.1K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике интересных наборов данных Software mentions - это большой набор данных всех упоминаний программных продуктов в научных статьях и литературе по биомедицине. В репозитории представлен код которым собирался этот набор данных [1] и сам набор данных также доступен [2]. В нём, в общей сложности, 1,12 миллион упоминаний программных продуктов извлеченных из 2,4 миллионов научных статей извлеченных из NIH PMC-OA Commercial subset, 481 упоминание программных продуктов из NIH PMC-OA Non-Commercial subset и 934 тысячи упоминаний программных продуктов из 4 миллионов статей в NIH Publishers Collection. Это всё около 4Гб в сжатом виде.

Поэтому если кратко, то это большой набор данных, дающий, как минимум, возможность оценить популярность инструментов и языков разработки используемых специалистами в области биоинформатики. Удивительно что пока никто не визуализировал эти данных, скорее всего просто мало кто знает о существовании этого набора данных.

Создание набора данных профинансировал фонд Chan-Zukerberg Initiative, который стоит упомянуть отдельно как один из крупнейших в мире фондов поддерживающий открытую науку и открытые инструменты для учёных в частности [3]. Это, в принципе, из тех инициатив которые являются другой гранью биг теха. С одной стороны, Facebook, одна из компаний построенных исключительно на недружелюбной слежке за пользователями, а с другой Цукерберг создал и развивает не имитационную, а самую настоящую некоммерческую инициативу без каких-либо "камней за пазухой".

У многих биг тех компаний и их основателей похожий подход. Да, в каких-то вопросах их репутация может быть крайне плохой, а в других наоборот обвинить не в чем. Мир совсем не чёрно белый.

Ссылки։
[1] https://github.com/chanzuckerberg/software-mentions
[2] https://doi.org/10.5061/dryad.6wwpzgn2c
[3] https://tech.chanzuckerberg.com/scitech/

#openaccess #openscience #scitech #datasets #data #opendata