Ivan Begtin
8.09K subscribers
2K photos
3 videos
102 files
4.71K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
В качестве напоминания, полезные данные и код для работы с открытыми данными:
- russiannames - библиотека и набор данных для определения способа написания ФИО и пола человека. Заранее отвечая на вопрос, нет, пол не всегда можно определить по отчеству потому что слишком часто в системах информация о человеке может вносится очень разными способами. В России иногда пишут полные ФИО, иногда только фамилию и инициалы, иногда имя и фамилию и так далее. В общем эта библиотека создавалась для распознавания этих самых способов написания и уже после этого для идентификации пола. Набор данных для работы библиотеки собирался в "дикой среде" и неидеален, но максимально полон. Для этой же библиотеки есть альтернативный набор данных на основе ФИО из ЕГРЮЛ и ЕГРИП. Записей имен, отчеств и фамилий там примерно в 8 раз меньше, зато данные хорошо вычищены.
- govdomains - публичная база и код сбора сведений о доменах госструктур в России. Используется для обнаружения сайтов для проекта архивации ruarxive (Национальный цифровой архив). Сейчас рабочая база данных перенесена в Airtables, там же идёт обогащение данных, а этот репозиторий содержит регулярные слепки данных. Охватывает, в первую очередь, сайты ФОИВов и других федеральных органов власти. Почти все поддомены в зоне .gov.ru и многие другие доменные зоны используемые органами власти.
- данные OpenNGO - открытые данные о российских НКО, слепок базы данных проекта Открытые НКО по более чем 700 тысячам некоммерческих организаций
- данные и API Госзатраты - открытое API для работы с госконтрактами в рамках проектов Госзатраты в форматах JSON lines. Данные позволяют делать самостоятельный анализ сведений о госрасходах.

Все эти данные и сервисы предоставляются AS IS, без какой-либо поддержки и ответственности разработчиков. Вы используете их на свой страх и риск, разумеется.

#API #data #opendata #dataset #opensource
December 2, 2021
В рубрике интересных наборов данных Research Organization Registry (ROR) [1] некоммерческий проект по созданию сводного полного реестра всех исследовательских организаций в мире. В общей сложности включает более 100 тысяч организаций для которых собраны сведения о их сайтах, названиях, идентификаторах в других реестрах таких как GRID, WikiData, ISNI и многих других. И присвоен свой идентификатор ROR.

У проекта есть описание хранимых данных и REST API [2], а все данные в виде дампа на регулярной основе публикуются в каталоге научных данных Zenodo [3], около 200MB в распакованном виде.

А также весь код проекта и его компонентов раскрывается [4], также как и планы его развития [5] также в виде проекта на Github

Ссылки:
[1] https://ror.org
[2] https://ror.readme.io/docs/ror-data-structure
[3] https://zenodo.org/record/6347575
[4] https://github.com/ror-community
[5] https://github.com/ror-community/ror-roadmap

#opendata #dataset #research
March 31, 2022
В Science вышла статья о "фабрике публикаций" [1], компании International Publisher, предлагающей учёным становится соавторами научных публикаций за деньги. В статье упоминается также происхождение сайта, его руководителя и сам сайт с таким предложением. Исследователь, Анна Абалкина провелֆ детальный анализ связываясь с учёными, компанией, представителями научных журналов и, собственно, итоги этого исследования/расследования запечатлены в статье в Science.

Ранее другая команда проводила похожий анализ [2] в отношении этого же сайта и компании и собрала большой набор данных [3], как раз для тех кто интересуется темой paper mills, такой набор данных будет интересен.

Ссылки:
[1] https://www.science.org/content/article/russian-website-peddles-authorships-linked-reputable-journals
[2] https://retractionwatch.com/2021/12/20/revealed-the-inner-workings-of-a-paper-mill/
[3] https://data.world/beperron/international-publisher

#dataset #science #data #research #investigations
April 8, 2022
November 30, 2022
reestr-inostrannyih-agentov-01-12-2022.zip
93 KB
December 1, 2022
January 4, 2023
February 22, 2023
Forwarded from Weekly Charts
March 29, 2023
В рубрике интересных наборов данных свежий датасет из 228 тысяч нормативных документов (законов, решений и тд.) Австралии. Автор собрал датасет и выложил на Hugging Face [1],а также описал процесс у себя в блоге [2] и само описание - это хорошее руководство того как самостоятельно создавать наборы данных и выложил исходный код использованный для создания такого датасета [3]. Во всех смыслах хороший пример - открытые данные + открытый код + датасет для машинного обучения. Особенно учитывая сложности в том что Австралия является конфедерацией и нет единой базы всего законодательства, а вместо этого отдельные системы на уровне центрального правительства и отдельные у штатов и в сейчас нет штата Виктория. Но даже при этих ограничениях - это большой корпус англоязычных документов полезный в работе многих инструментов.

Ссылки:
[1] https://huggingface.co/datasets/umarbutler/open-australian-legal-corpus
[2] https://umarbutler.com/how-i-built-the-largest-open-database-of-australian-law/
[3] https://github.com/umarbutler/open-australian-legal-corpus-creator

#dataset #opendata #data
December 19, 2023
Forwarded from Daniilak — Канал
April 6, 2024
January 18
В рубрике интересных и малоизвестных наборов данных Multinational Enterprise Information Platform (MEIP) [1] база данных по международным или, как ещё говорят, транснациональным корпорациям. Создана в рамках совместной инициативы OECD и UNSD решением 2015 г. на 46 сессии UNSD [2] в целях повышения понимания и измеримости статистики международной торговли и глобализации.

В открытом доступе находится два датасета: Global Register и Digital Register

Global Register - база дочерних предприятий 500 крупнейших MNP, общим объёмом в 128 тысяч организаций (в версии на конец декабря 2023 г. [3], включая данные о местонахождении, адресах, уникальных идентификаторах LEI и PermID и других метаданных.

Digital Register - база сайтов дочерних предприятий и их pageRank и посещаемости. На конец декабря 2023 г. это около 122 тысяч сайтов [4].

Для тех кто изучает устройство международной торговли датасеты могут быть интересны.

Из минусов - все данные в Excel, обновляются только раз в год.

Ссылки:
[1] https://www.oecd.org/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform.html
[2] https://unstats.un.org/unsd/statcom/46th-session/documents/statcom-2015-46th-report-E.pdf#page=21
[3] https://www.oecd.org/content/dam/oecd/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform/Global-Register_2023.xlsx
[4] https://www.oecd.org/content/dam/oecd/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform/Global-Register_2023.xlsx

#opendata #dataset #data
February 25