Ivan Begtin
8.1K subscribers
2K photos
3 videos
102 files
4.72K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике как это устроено у них Japan Search [1] поисковая система по архивам Японии охватывает десятки баз данных национальной библиографии, галерей, музеев, архивов, библиотек, каталогов научных работ, архивов фотографий и мультимедиа и многие других коллекций.

Кроме того это поисковик по данным страны поскольку в нём проиндексированы данные национального каталога data.go.jp [2] в объёме чуть менее 23 тысяч наборов данных.

Всего же через поиск доступен 31 миллион цифровых объектов.

У проекта есть открытое API [3] с интерфейсом SPARQL и REST API.

Ссылки:
[1] https://jpsearch.go.jp
[2] https://jpsearch.go.jp/csearch/jps-cross?csid=jps-cross&from=0&f-db=%2Ba12345
[3] https://jpsearch.go.jp/static/developer/en.html

#opendata #digitalheritage #datasets #japan
404 пишет про то что данные с американского портала data.gov исчезают при новой администрации [1] количественно не очень много, но вероятность что будут исчезать данные по гендерным исследованиям или изменению климата весьма велика.

Jack Cushman из Гарвардского Университета начал проект по сохранению данных государственных данных и кода в архиве Harvard Law School Library Innovation Lab. Обещают вскоре опубликовать данные и метаданные собранного [2].

А я ещё год назад активистам в OKF говорил что архивация данных - это самое главное сейчас в тематике работы с данными и ещё неизвестно сколько общественных порталов открытых данных закроются из-за приостановки финансирования и закрытия USAID.

Ссылки:
[1] https://www.404media.co/archivists-work-to-identify-and-save-the-thousands-of-datasets-disappearing-from-data-gov/
[2] https://lil.law.harvard.edu/blog/2025/01/30/preserving-public-u-s-federal-data/

#opendata #datarescue #datasets #usa
В рубрике особо интересных наборов данных "ScatSpotter" 2024 -- A Distributed Dog Poop Detection Dataset [1] аннотированный набор данных фотографий собачьих фекалий объёмом в 42 гигабайт. Шутки-шутками, а очень полезный датасет для тех кто проектирует системы идентификации мусора и его уборки😉

Но, что интереснее, сам датасет опубликован только как torrent ссылка magnet и на распределенной файловой системе IPFS.

Его исходный код есть на Github [3], а датасет можно найти на Academic Torrents [4], например, или через IPFS Gateway [5]

Заодно очень хочется порадоваться за исследователей которые могут заниматься изучением собачьих фекалий, а не вот это вот всё.😂

Ссылки:
[1] https://arxiv.org/abs/2412.16473
[2] https://paperswithcode.com/paper/scatspotter-2024-a-distributed-dog-poop
[3] https://github.com/Erotemic/shitspotter
[4] https://academictorrents.com/details/ee8d2c87a39ea9bfe48bef7eb4ca12eb68852c49
[5] https://ipfs.io/ipfs/QmQonrckXZq37ZHDoRGN4xVBkqedvJRgYyzp2aBC5Ujpyp/?autoadapt=0&immediatecontinue=1&magiclibraryconfirmation=0&redirectURL=bafybeiedwp2zvmdyb2c2axrcl455xfbv2mgdbhgkc3dile4dftiimwth2y&requiresorigin=0&web3domain=0

#opendata #datasets #ipfs #torrents
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.

В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #opengov #russia #datasets #digitalpreservation #webarchives
В рубрике плохих примеров публикации данных статистические данные и портал открытых данных Германии. В Германии официальный портал открытых данных govdata.de [1] содержит более 130 тысяч наборов данных, в самых разных форматах. Причём очень много геоданных и не только в машиночитаемых форматах, но и просто в виде PDF файлов карт. Среди этих данных около 3 тысяч наборов - это официальная статистика статслужбы Германии DESTATIS [2]. DESTATIS эксплуатирует платформу публикации официальной статистики Genesis [3] на которой доступны статистические индикаторы.

Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].

Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.

Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.

Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf

#opendata #germany #datasets
В рубрике интересных наборов данных Ransomwhere [1] проект по отслеживанию выплат в криптовалютах шантажистам. Помимо того что данные можно просмотреть на сайте, их также можно скачать в виде датасета [2] и цитировать в научных работах.

В датасете информация о транзакциях включая адреса Bitcoin'а для куда шантажистам переводили средства.

Ссылки:
[1] https://ransomwhe.re
[2] https://zenodo.org/records/13999026

#opendata #datasets #cryptocurrency
Для тех кто изучает данные по криптовалютам и Web3 мы запустили новый каталог открытых данных Crypto Data Hub [1] где можно найти много разных данных по криптовалютам из самых разных источников. Основным источником являются данные сервиса Blockchair [2] которые мы перегруппировали в виде помесячных датасетов, но кроме них есть и другие датасеты и общее их число будет постепенно расти.

Также портал проиндексирован в Dateno благодаря чему в Dateno теперь можно найти данные по криптовалютам [3].

CryptoData Hub это некоммерческий проект созданный от лица НКО Open Data Armenia (@opendataam), мы продолжим наполнять его интересными датасетами. Если Вы знаете интересные криптоданные, можете поделиться ими или знаете где их взять, напишите мне в личку или на [email protected] и мы будем только рады их добавить в этот каталог.

P.S. Мы специально сделали именно отдельный каталог данных поскольку тема криптовалют большая, потребности исследователей в данных растут, а доступных данных не так много, вернее много, но коммерческих.

Ссылки:
[1] https://cryptodata.center
[2] https://blockchair.com/dumps
[3] https://dateno.io/search?query=Zcash

#opendata #datasets #opendataam #cryptocurrency #data #datacatalogs
В очередной раз отвлекаясь от темы данных, в США вслед за USAID заморожено финансирование NED (National Endowment for Democracy) [1]. Этот фонд был, формально, частный, а де-факто на 95% финансировался средствами выделяемых Конгрессом, а теперь его финансирование приостановлено.

В 2023 году NED распределил $283 миллионов на 1989 проектов в 100 странах [2], информация о них довольно фрагментирована как и за прошлые годы. Гораздо легче найти гранты и контракты NED с Department of State в США, с информацией о том сколько и как фонд получал средств.

Лично у меня остались в архивах только данные о грантах распределённых NED до 2011 года и их получателях, а то есть очень давние данные.

Сложно предположить что что будет с NED далее, начнут ли их ликвидировать как USAID, останется ли веб сайт и тд. Однако для тех кто начнёт изучать их активность, по сути, одним из немногих порталов окажется d-portal.org где средства выделенные NED декомпозированы по странам, но не по организациям получателям [3].

NED, в принципе, никогда не был особенно прозрачным грантодателем. Ещё примерно лет 10-13 назад на их сайте был раздел работы по странам, например, по России [4] где были списки получателей средств из последнего годового отчета (не всех, не за все годы), потом этот раздел исчез и вместо него появились обобщённые страницы макрорегионов без детализации [5]. NED никогда не публиковали информацию о международной помощи на портале IATI [6], впрочем, как я понимаю, это финансирование может быть и не попадает под категорию международной помощи.

В любом случает свежий датасет по проектам финансированным NED, насколько я знаю, в открытом доступе отсутствует.

Всё это о том что непрозрачность - это характеристика многих источников политического финансирования в мире. Если данные NED начнут исчезать также быстро как данные USAID, то важно успеть их сохранить.

Ссылки:
[1] https://www.ned.org/investing-in-freedom-an-introduction-to-the-national-endowment-for-democracy/
[2] https://www.ned.org/2023-annual-report/
[3] https://d-portal.org/ctrack.html?publisher=US-GOV-11#view=act&aid=US-GOV-11-67243
[4] https://web.archive.org/web/20130118073745/http://ned.org/where-we-work/eurasia/russia
[5] https://www.ned.org/region/middle-east-and-northern-africa/
[6] https://iatiregistry.org

#opendata #datasets #usa #spending
А вот и ещё одно последствие от стремительной резки фед. бюджета США Трампом/Маском. Mozilla рассылают письма пожертвовать им денег потому что опасаются потери $3.55 миллионов грантовых средств на несколько проектов. Это Mozilla’s Responsible Computing Challenge и Mozilla Common Voice. Первая программа касалась развивающихся стран, весь мир точно не затрагивает. А вот Mozilla Common Voice жаль, будем надеяться что будут другие источники финансирования.


#mozilla #spending #datasets
Всем привет! Напоминаю, что сегодня начинается российский День открытых данных https://opendataday.ru/msk в 11:00 по Москве (UTC+3)

Я буду выступать в нём модератором и буду выступать с 11:45 с рассказом про поиск в Dateno. И здесь в канале я буду регулярно писать про выступления, анонсируя или комментируя выступающих, так что публикаций сегодня будет более чем обычно, надеюсь это не слишком утомит читателей;)

Первое выступление будет в 11:15 от Дмитрия Скугаревского на тему "Российская база бухгалтерской отчетности". Доклад очень интересный, напомню что датасет к нему доступен на Hugging Face, а из выступления Дмитрия можно будет узнать как он создавался.

Присоединяйтесь к трансляции Дня открытых данных 2025 в ВК или YouTube.

#opendataday #opendata #data #datasets #events