В рубрике как это устроено у них каталог визуализаций 3D сканов археологических объектов, объектов культурного наследия и иных научных коллекций физических объектов MorphoSource [1]. Включает визуализацию результатов сканирования, возможность запросить сами данные и обеспечивает доступность данных, чаще опубликованных под лицензией CC-BY-NC, свободное использование для некоммерческих целей.
Всего 172 тысяч объектов из которых 170.5 тысяч это объекты животного и растительного происхождения.
У проекта есть открытое API [2] и открытый код. Создан в Duke University за счет финансирования Национального научного фонда США.
Ссылки:
[1] https://www.morphosource.org
[2] https://morphosource.stoplight.io/docs/morphosource-api/rm6bqdolcidct-morpho-source-rest-api
[3] https://github.com/morphosource
#opendata #datacatalogs #datasets #archeology
Всего 172 тысяч объектов из которых 170.5 тысяч это объекты животного и растительного происхождения.
У проекта есть открытое API [2] и открытый код. Создан в Duke University за счет финансирования Национального научного фонда США.
Ссылки:
[1] https://www.morphosource.org
[2] https://morphosource.stoplight.io/docs/morphosource-api/rm6bqdolcidct-morpho-source-rest-api
[3] https://github.com/morphosource
#opendata #datacatalogs #datasets #archeology
January 22
В рубрике как это устроено у них Japan Search [1] поисковая система по архивам Японии охватывает десятки баз данных национальной библиографии, галерей, музеев, архивов, библиотек, каталогов научных работ, архивов фотографий и мультимедиа и многие других коллекций.
Кроме того это поисковик по данным страны поскольку в нём проиндексированы данные национального каталога data.go.jp [2] в объёме чуть менее 23 тысяч наборов данных.
Всего же через поиск доступен 31 миллион цифровых объектов.
У проекта есть открытое API [3] с интерфейсом SPARQL и REST API.
Ссылки:
[1] https://jpsearch.go.jp
[2] https://jpsearch.go.jp/csearch/jps-cross?csid=jps-cross&from=0&f-db=%2Ba12345
[3] https://jpsearch.go.jp/static/developer/en.html
#opendata #digitalheritage #datasets #japan
Кроме того это поисковик по данным страны поскольку в нём проиндексированы данные национального каталога data.go.jp [2] в объёме чуть менее 23 тысяч наборов данных.
Всего же через поиск доступен 31 миллион цифровых объектов.
У проекта есть открытое API [3] с интерфейсом SPARQL и REST API.
Ссылки:
[1] https://jpsearch.go.jp
[2] https://jpsearch.go.jp/csearch/jps-cross?csid=jps-cross&from=0&f-db=%2Ba12345
[3] https://jpsearch.go.jp/static/developer/en.html
#opendata #digitalheritage #datasets #japan
January 28
404 пишет про то что данные с американского портала data.gov исчезают при новой администрации [1] количественно не очень много, но вероятность что будут исчезать данные по гендерным исследованиям или изменению климата весьма велика.
Jack Cushman из Гарвардского Университета начал проект по сохранению данных государственных данных и кода в архиве Harvard Law School Library Innovation Lab. Обещают вскоре опубликовать данные и метаданные собранного [2].
А я ещё год назад активистам в OKF говорил что архивация данных - это самое главное сейчас в тематике работы с данными и ещё неизвестно сколько общественных порталов открытых данных закроются из-за приостановки финансирования и закрытия USAID.
Ссылки:
[1] https://www.404media.co/archivists-work-to-identify-and-save-the-thousands-of-datasets-disappearing-from-data-gov/
[2] https://lil.law.harvard.edu/blog/2025/01/30/preserving-public-u-s-federal-data/
#opendata #datarescue #datasets #usa
Jack Cushman из Гарвардского Университета начал проект по сохранению данных государственных данных и кода в архиве Harvard Law School Library Innovation Lab. Обещают вскоре опубликовать данные и метаданные собранного [2].
А я ещё год назад активистам в OKF говорил что архивация данных - это самое главное сейчас в тематике работы с данными и ещё неизвестно сколько общественных порталов открытых данных закроются из-за приостановки финансирования и закрытия USAID.
Ссылки:
[1] https://www.404media.co/archivists-work-to-identify-and-save-the-thousands-of-datasets-disappearing-from-data-gov/
[2] https://lil.law.harvard.edu/blog/2025/01/30/preserving-public-u-s-federal-data/
#opendata #datarescue #datasets #usa
February 2
В рубрике особо интересных наборов данных "ScatSpotter" 2024 -- A Distributed Dog Poop Detection Dataset [1] аннотированный набор данных фотографий собачьих фекалий объёмом в 42 гигабайт. Шутки-шутками, а очень полезный датасет для тех кто проектирует системы идентификации мусора и его уборки😉
Но, что интереснее, сам датасет опубликован только как torrent ссылка magnet и на распределенной файловой системе IPFS.
Его исходный код есть на Github [3], а датасет можно найти на Academic Torrents [4], например, или через IPFS Gateway [5]
Заодно очень хочется порадоваться за исследователей которые могут заниматься изучением собачьих фекалий, а не вот это вот всё.😂
Ссылки:
[1] https://arxiv.org/abs/2412.16473
[2] https://paperswithcode.com/paper/scatspotter-2024-a-distributed-dog-poop
[3] https://github.com/Erotemic/shitspotter
[4] https://academictorrents.com/details/ee8d2c87a39ea9bfe48bef7eb4ca12eb68852c49
[5] https://ipfs.io/ipfs/QmQonrckXZq37ZHDoRGN4xVBkqedvJRgYyzp2aBC5Ujpyp/?autoadapt=0&immediatecontinue=1&magiclibraryconfirmation=0&redirectURL=bafybeiedwp2zvmdyb2c2axrcl455xfbv2mgdbhgkc3dile4dftiimwth2y&requiresorigin=0&web3domain=0
#opendata #datasets #ipfs #torrents
Но, что интереснее, сам датасет опубликован только как torrent ссылка magnet и на распределенной файловой системе IPFS.
Его исходный код есть на Github [3], а датасет можно найти на Academic Torrents [4], например, или через IPFS Gateway [5]
Заодно очень хочется порадоваться за исследователей которые могут заниматься изучением собачьих фекалий, а не вот это вот всё.😂
Ссылки:
[1] https://arxiv.org/abs/2412.16473
[2] https://paperswithcode.com/paper/scatspotter-2024-a-distributed-dog-poop
[3] https://github.com/Erotemic/shitspotter
[4] https://academictorrents.com/details/ee8d2c87a39ea9bfe48bef7eb4ca12eb68852c49
[5] https://ipfs.io/ipfs/QmQonrckXZq37ZHDoRGN4xVBkqedvJRgYyzp2aBC5Ujpyp/?autoadapt=0&immediatecontinue=1&magiclibraryconfirmation=0&redirectURL=bafybeiedwp2zvmdyb2c2axrcl455xfbv2mgdbhgkc3dile4dftiimwth2y&requiresorigin=0&web3domain=0
#opendata #datasets #ipfs #torrents
February 10
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
hubofdata.ru
Архив данных портала открытых данных РФ data.gov.ru на 2 февраля 2022 г - Хаб открытых данных
Слепок всех данных с портала data.gov.ru на 2 февраля 2022 г.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
February 11
В рубрике плохих примеров публикации данных статистические данные и портал открытых данных Германии. В Германии официальный портал открытых данных govdata.de [1] содержит более 130 тысяч наборов данных, в самых разных форматах. Причём очень много геоданных и не только в машиночитаемых форматах, но и просто в виде PDF файлов карт. Среди этих данных около 3 тысяч наборов - это официальная статистика статслужбы Германии DESTATIS [2]. DESTATIS эксплуатирует платформу публикации официальной статистики Genesis [3] на которой доступны статистические индикаторы.
Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].
Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.
Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.
Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf
#opendata #germany #datasets
Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].
Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.
Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.
Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf
#opendata #germany #datasets
February 11
В рубрике интересных наборов данных Ransomwhere [1] проект по отслеживанию выплат в криптовалютах шантажистам. Помимо того что данные можно просмотреть на сайте, их также можно скачать в виде датасета [2] и цитировать в научных работах.
В датасете информация о транзакциях включая адреса Bitcoin'а для куда шантажистам переводили средства.
Ссылки:
[1] https://ransomwhe.re
[2] https://zenodo.org/records/13999026
#opendata #datasets #cryptocurrency
В датасете информация о транзакциях включая адреса Bitcoin'а для куда шантажистам переводили средства.
Ссылки:
[1] https://ransomwhe.re
[2] https://zenodo.org/records/13999026
#opendata #datasets #cryptocurrency
ransomwhe.re
Ransomwhere
Ransomwhere is the open, crowdsourced ransomware payment tracker.
February 21
Для тех кто изучает данные по криптовалютам и Web3 мы запустили новый каталог открытых данных Crypto Data Hub [1] где можно найти много разных данных по криптовалютам из самых разных источников. Основным источником являются данные сервиса Blockchair [2] которые мы перегруппировали в виде помесячных датасетов, но кроме них есть и другие датасеты и общее их число будет постепенно расти.
Также портал проиндексирован в Dateno благодаря чему в Dateno теперь можно найти данные по криптовалютам [3].
CryptoData Hub это некоммерческий проект созданный от лица НКО Open Data Armenia (@opendataam), мы продолжим наполнять его интересными датасетами. Если Вы знаете интересные криптоданные, можете поделиться ими или знаете где их взять, напишите мне в личку или на ibegtin@opendata.am и мы будем только рады их добавить в этот каталог.
P.S. Мы специально сделали именно отдельный каталог данных поскольку тема криптовалют большая, потребности исследователей в данных растут, а доступных данных не так много, вернее много, но коммерческих.
Ссылки:
[1] https://cryptodata.center
[2] https://blockchair.com/dumps
[3] https://dateno.io/search?query=Zcash
#opendata #datasets #opendataam #cryptocurrency #data #datacatalogs
Также портал проиндексирован в Dateno благодаря чему в Dateno теперь можно найти данные по криптовалютам [3].
CryptoData Hub это некоммерческий проект созданный от лица НКО Open Data Armenia (@opendataam), мы продолжим наполнять его интересными датасетами. Если Вы знаете интересные криптоданные, можете поделиться ими или знаете где их взять, напишите мне в личку или на ibegtin@opendata.am и мы будем только рады их добавить в этот каталог.
P.S. Мы специально сделали именно отдельный каталог данных поскольку тема криптовалют большая, потребности исследователей в данных растут, а доступных данных не так много, вернее много, но коммерческих.
Ссылки:
[1] https://cryptodata.center
[2] https://blockchair.com/dumps
[3] https://dateno.io/search?query=Zcash
#opendata #datasets #opendataam #cryptocurrency #data #datacatalogs
February 21
В очередной раз отвлекаясь от темы данных, в США вслед за USAID заморожено финансирование NED (National Endowment for Democracy) [1]. Этот фонд был, формально, частный, а де-факто на 95% финансировался средствами выделяемых Конгрессом, а теперь его финансирование приостановлено.
В 2023 году NED распределил $283 миллионов на 1989 проектов в 100 странах [2], информация о них довольно фрагментирована как и за прошлые годы. Гораздо легче найти гранты и контракты NED с Department of State в США, с информацией о том сколько и как фонд получал средств.
Лично у меня остались в архивах только данные о грантах распределённых NED до 2011 года и их получателях, а то есть очень давние данные.
Сложно предположить что что будет с NED далее, начнут ли их ликвидировать как USAID, останется ли веб сайт и тд. Однако для тех кто начнёт изучать их активность, по сути, одним из немногих порталов окажется d-portal.org где средства выделенные NED декомпозированы по странам, но не по организациям получателям [3].
NED, в принципе, никогда не был особенно прозрачным грантодателем. Ещё примерно лет 10-13 назад на их сайте был раздел работы по странам, например, по России [4] где были списки получателей средств из последнего годового отчета (не всех, не за все годы), потом этот раздел исчез и вместо него появились обобщённые страницы макрорегионов без детализации [5]. NED никогда не публиковали информацию о международной помощи на портале IATI [6], впрочем, как я понимаю, это финансирование может быть и не попадает под категорию международной помощи.
В любом случает свежий датасет по проектам финансированным NED, насколько я знаю, в открытом доступе отсутствует.
Всё это о том что непрозрачность - это характеристика многих источников политического финансирования в мире. Если данные NED начнут исчезать также быстро как данные USAID, то важно успеть их сохранить.
Ссылки:
[1] https://www.ned.org/investing-in-freedom-an-introduction-to-the-national-endowment-for-democracy/
[2] https://www.ned.org/2023-annual-report/
[3] https://d-portal.org/ctrack.html?publisher=US-GOV-11#view=act&aid=US-GOV-11-67243
[4] https://web.archive.org/web/20130118073745/http://ned.org/where-we-work/eurasia/russia
[5] https://www.ned.org/region/middle-east-and-northern-africa/
[6] https://iatiregistry.org
#opendata #datasets #usa #spending
В 2023 году NED распределил $283 миллионов на 1989 проектов в 100 странах [2], информация о них довольно фрагментирована как и за прошлые годы. Гораздо легче найти гранты и контракты NED с Department of State в США, с информацией о том сколько и как фонд получал средств.
Лично у меня остались в архивах только данные о грантах распределённых NED до 2011 года и их получателях, а то есть очень давние данные.
Сложно предположить что что будет с NED далее, начнут ли их ликвидировать как USAID, останется ли веб сайт и тд. Однако для тех кто начнёт изучать их активность, по сути, одним из немногих порталов окажется d-portal.org где средства выделенные NED декомпозированы по странам, но не по организациям получателям [3].
NED, в принципе, никогда не был особенно прозрачным грантодателем. Ещё примерно лет 10-13 назад на их сайте был раздел работы по странам, например, по России [4] где были списки получателей средств из последнего годового отчета (не всех, не за все годы), потом этот раздел исчез и вместо него появились обобщённые страницы макрорегионов без детализации [5]. NED никогда не публиковали информацию о международной помощи на портале IATI [6], впрочем, как я понимаю, это финансирование может быть и не попадает под категорию международной помощи.
В любом случает свежий датасет по проектам финансированным NED, насколько я знаю, в открытом доступе отсутствует.
Всё это о том что непрозрачность - это характеристика многих источников политического финансирования в мире. Если данные NED начнут исчезать также быстро как данные USAID, то важно успеть их сохранить.
Ссылки:
[1] https://www.ned.org/investing-in-freedom-an-introduction-to-the-national-endowment-for-democracy/
[2] https://www.ned.org/2023-annual-report/
[3] https://d-portal.org/ctrack.html?publisher=US-GOV-11#view=act&aid=US-GOV-11-67243
[4] https://web.archive.org/web/20130118073745/http://ned.org/where-we-work/eurasia/russia
[5] https://www.ned.org/region/middle-east-and-northern-africa/
[6] https://iatiregistry.org
#opendata #datasets #usa #spending
February 26
А вот и ещё одно последствие от стремительной резки фед. бюджета США Трампом/Маском. Mozilla рассылают письма пожертвовать им денег потому что опасаются потери $3.55 миллионов грантовых средств на несколько проектов. Это Mozilla’s Responsible Computing Challenge и Mozilla Common Voice. Первая программа касалась развивающихся стран, весь мир точно не затрагивает. А вот Mozilla Common Voice жаль, будем надеяться что будут другие источники финансирования.
#mozilla #spending #datasets
#mozilla #spending #datasets
February 28