Ivan Begtin
8.1K subscribers
2.01K photos
3 videos
102 files
4.73K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике плохих примеров публикации данных статистические данные и портал открытых данных Германии. В Германии официальный портал открытых данных govdata.de [1] содержит более 130 тысяч наборов данных, в самых разных форматах. Причём очень много геоданных и не только в машиночитаемых форматах, но и просто в виде PDF файлов карт. Среди этих данных около 3 тысяч наборов - это официальная статистика статслужбы Германии DESTATIS [2]. DESTATIS эксплуатирует платформу публикации официальной статистики Genesis [3] на которой доступны статистические индикаторы.

Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].

Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.

Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.

Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf

#opendata #germany #datasets
Полезные ссылки про данные, технологии и не только:
- Perforator [1] профайлер приложений от Яндекса и с использованием eBPF [2]. Полезно для отладки многих сложных и простых нативных приложений и отдельно расписано как профилировать и оптимизировать серверные приложения на Python. Выглядит как очень добротный open source продукт
- GPT Researcher [3] автономный инструмент для исследований с аккуратной простановкой цитат, использует внешние и локальные источники. Интегрирован с OpenAI
- The Illustrated DeepSeek-R1 [4] подробно о DeepSeek в картинках, позволяет легче ухватить суть продукта
- DataLumos [5] проект Университета Мичигана по архивации государственных и социальных данных, построен на базе OpenICPSR [6], данных не очень много, но они адаптированы под исследовательские задачи
- Data Formulator: Create Rich Visualizations with AI [7] полноценный движок для визуализации данных с помощью ИИ. Выпущен исследователями из Microsoft вместе с научной работой, под лицензией MIT. Выглядит как proof-of-concept, не факт что его можно применять в практических задачах сразу и из коробки, но для экспериментов самое оно. И для идей и вдохновения
- Chat2DB [8] открытый код (community edition) и сервис по управлению базами данных с помощью ИИ. Всё самое вкусное вынесли в коммерческие версии, но посмотреть стоит в любом случае.

Ссылки:
[1] https://perforator.tech
[2] https://ebpf.io
[3] https://github.com/assafelovic/gpt-researcher
[4] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
[5] https://www.datalumos.org
[6] https://www.openicpsr.org/openicpsr/
[7] https://github.com/microsoft/data-formulator
[8] https://chat2db.ai

#opensource #datatools #opendata #ai
В рубрике интересных открытых данных проект The Data Liberation Project [1] создан командой НКО MuckRock [2] в США и содержит наборы данных которые они каким-либо способом получили, очистили, переформатировали и подготовили. В основном это данные интересные для журналистов и на которые благодаря их работе можно сослаться. Например, там есть датасет по использованию воды [3] из реестра USGS или база жалоб заключенных [4].

Значительная часть данных получена через FOI запросы к органами власти, а далее преобразована ими в форматы SQlite, превращено в веб сайты и тд.

Можно было бы назвать их каталогом данных, но скорее просто список. Значительную часть результатов они публикуют просто файлами на Google Drive. С другой стороны они готовят весьма осмысленную документацию на наборы данных [5].

Я вспомнил про него ещё и потому что увидел что MuckRock хостят онлайн мероприятие посвящённое архивации федеральных данных в США [6] с участием главы Интернет Архива, Марка Грехэма и Джека Кушмана из Harvard Law School Library Innovation Lab. Первые ведут проект End of term с архивом материалов прошлой администрации, а вторые сделали полный слепок данных data.gov на 16TB.

Ссылки:
[1] https://www.data-liberation-project.org
[2] https://www.muckrock.com
[3] https://www.data-liberation-project.org/datasets/usgs-water-use-inventory/
[4] https://www.data-liberation-project.org/datasets/federal-inmate-complaints/
[5] https://docs.google.com/document/d/1vTuyUFNqS9tex4_s4PgmhF8RTvTb-uFMN5ElDjjVHTM/edit?tab=t.0#heading=h.iw2h1hjfzqu0
[6] https://www.muckrock.com/news/archives/2025/feb/10/federal-data-is-disappearing-on-thursday-meet-the-teams-working-to-rescue-it-and-learn-how-you-can-help/

#opendata #opengov #digitalpreservation
Data Rescue Project [1] - ещё один проект в США по архивации госданных. Делается группой исследовательских организаций, сохраняют данные сами и систематизируют сохранённое другими.

В общедоступном каталоге сейчас 87 источников данных [2]

Что характерно технически используют для работы Baserow [3] - open source аналог Airtable. У нас в рамках ruarxive.org всё собрано было в Airtable что уже неудобно и, возможно, стоит смигрировать в Baserow или Mathesar.

В случае Data Rescue Project можно ещё обратить внимание на объёмы, сейчас у них сохранено порядка 5 ТБ, что с одной стороны, не так уж много, а с другой, это же не архивы сайтов, а архив именно данных.

Ссылки:
[1] https://www.datarescueproject.org/
[2] https://baserow.datarescueproject.org/public/grid/Nt_M6errAkVRIc3NZmdM8wcl74n9tFKaDLrr831kIn4
[3] https://baserow.io/

#opendata #webarchives #digitalpreservation
Forwarded from Инфокультура
Присоединяйтесь ко Дню открытых данных 2025 — #ODD2025

01.03.2024, 11:00-16:00 (GMT +3), День открытых данных 2025 (https://opendataday.ru/msk) — это ежегодное международное мероприятие, которое помогает продвигать концепцию открытых данных среди органов государственной власти, бизнес-корпораций, некоммерческих организаций и гражданского общества.

Мероприятие пройдет в онлайн формате.

Мы подготовили для аудитории сессии докладов, презентации кейсов и мастер-классы по актуальным вопросам различных направлений открытости и отдельных проектов.
Приглашаем исследователей, дата инженеров, аналитиков, урбанистов, разработчиков, ИТ-специалистов, дата-журналистов и других участников российского движения открытости и любителей данных во всех их формах.

#opendata #russia #events
Полезные ссылки про данные, технологии и не только:
- Economic Implications of Data Regulation [1] отчёт ОЭСР про последствия регулирования данных в контексте ИИ, персональных данных и глобальных платформ. В частности новый термин в словарь - data free flows with trust (DFFT).
- Trump has free rein over Dutch government data [2] один из примеров того что в ЕС всё больше журналистов, активистов и чиновников поднимают вопрос о Европейском цифровом суверенитете. Что-то напоминает, да? В основе страхов мюнхенская речь Вэнса и санкции против Международного уголовного суда
- Health Data Preservation Project [3] проект по архивации данных о здравоохранении в США. В целом там сейчас более 20 проектов архивации научных и государственных данных, многие объединяют усилия в этой области
- Language Data Commons of Australia Data Portal [4] портал данных открытых языковых ресурсов в Австралии. Существенная их часть - это аудиозаписи, но их тоже относят к данным.
- Wikipedia Recognized as a Digital Public Good [5] Википедия признана Цифровым общественным благом. Что, наверняка, неплохо для фонда Викимедия. Вся эта инициатива под эгидой одноименного альянса связанного с UNICEF и UNDP.

Ссылки:
[1] https://www.oecd.org/en/publications/economic-implications-of-data-regulation_aa285504-en.html
[2] https://ioplus.nl/en/posts/trump-has-free-rein-over-dutch-government-data
[3] https://healthjournalism.org/resources/health-data-preservation-project/
[4] https://data.ldaca.edu.au
[5] https://wikimediafoundation.org/news/2025/02/12/wikipedia-recognized-as-a-digital-public-good/

#opendata #digitalpreservation #dataregulation #readings
В рубрике интересных наборов данных Ransomwhere [1] проект по отслеживанию выплат в криптовалютах шантажистам. Помимо того что данные можно просмотреть на сайте, их также можно скачать в виде датасета [2] и цитировать в научных работах.

В датасете информация о транзакциях включая адреса Bitcoin'а для куда шантажистам переводили средства.

Ссылки:
[1] https://ransomwhe.re
[2] https://zenodo.org/records/13999026

#opendata #datasets #cryptocurrency
Для тех кто изучает данные по криптовалютам и Web3 мы запустили новый каталог открытых данных Crypto Data Hub [1] где можно найти много разных данных по криптовалютам из самых разных источников. Основным источником являются данные сервиса Blockchair [2] которые мы перегруппировали в виде помесячных датасетов, но кроме них есть и другие датасеты и общее их число будет постепенно расти.

Также портал проиндексирован в Dateno благодаря чему в Dateno теперь можно найти данные по криптовалютам [3].

CryptoData Hub это некоммерческий проект созданный от лица НКО Open Data Armenia (@opendataam), мы продолжим наполнять его интересными датасетами. Если Вы знаете интересные криптоданные, можете поделиться ими или знаете где их взять, напишите мне в личку или на [email protected] и мы будем только рады их добавить в этот каталог.

P.S. Мы специально сделали именно отдельный каталог данных поскольку тема криптовалют большая, потребности исследователей в данных растут, а доступных данных не так много, вернее много, но коммерческих.

Ссылки:
[1] https://cryptodata.center
[2] https://blockchair.com/dumps
[3] https://dateno.io/search?query=Zcash

#opendata #datasets #opendataam #cryptocurrency #data #datacatalogs
В рубрике интересных и малоизвестных наборов данных Multinational Enterprise Information Platform (MEIP) [1] база данных по международным или, как ещё говорят, транснациональным корпорациям. Создана в рамках совместной инициативы OECD и UNSD решением 2015 г. на 46 сессии UNSD [2] в целях повышения понимания и измеримости статистики международной торговли и глобализации.

В открытом доступе находится два датасета: Global Register и Digital Register

Global Register - база дочерних предприятий 500 крупнейших MNP, общим объёмом в 128 тысяч организаций (в версии на конец декабря 2023 г. [3], включая данные о местонахождении, адресах, уникальных идентификаторах LEI и PermID и других метаданных.

Digital Register - база сайтов дочерних предприятий и их pageRank и посещаемости. На конец декабря 2023 г. это около 122 тысяч сайтов [4].

Для тех кто изучает устройство международной торговли датасеты могут быть интересны.

Из минусов - все данные в Excel, обновляются только раз в год.

Ссылки:
[1] https://www.oecd.org/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform.html
[2] https://unstats.un.org/unsd/statcom/46th-session/documents/statcom-2015-46th-report-E.pdf#page=21
[3] https://www.oecd.org/content/dam/oecd/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform/Global-Register_2023.xlsx
[4] https://www.oecd.org/content/dam/oecd/en/data/dashboards/oecd-unsd-multinational-enterprise-information-platform/Global-Register_2023.xlsx

#opendata #dataset #data
В очередной раз отвлекаясь от темы данных, в США вслед за USAID заморожено финансирование NED (National Endowment for Democracy) [1]. Этот фонд был, формально, частный, а де-факто на 95% финансировался средствами выделяемых Конгрессом, а теперь его финансирование приостановлено.

В 2023 году NED распределил $283 миллионов на 1989 проектов в 100 странах [2], информация о них довольно фрагментирована как и за прошлые годы. Гораздо легче найти гранты и контракты NED с Department of State в США, с информацией о том сколько и как фонд получал средств.

Лично у меня остались в архивах только данные о грантах распределённых NED до 2011 года и их получателях, а то есть очень давние данные.

Сложно предположить что что будет с NED далее, начнут ли их ликвидировать как USAID, останется ли веб сайт и тд. Однако для тех кто начнёт изучать их активность, по сути, одним из немногих порталов окажется d-portal.org где средства выделенные NED декомпозированы по странам, но не по организациям получателям [3].

NED, в принципе, никогда не был особенно прозрачным грантодателем. Ещё примерно лет 10-13 назад на их сайте был раздел работы по странам, например, по России [4] где были списки получателей средств из последнего годового отчета (не всех, не за все годы), потом этот раздел исчез и вместо него появились обобщённые страницы макрорегионов без детализации [5]. NED никогда не публиковали информацию о международной помощи на портале IATI [6], впрочем, как я понимаю, это финансирование может быть и не попадает под категорию международной помощи.

В любом случает свежий датасет по проектам финансированным NED, насколько я знаю, в открытом доступе отсутствует.

Всё это о том что непрозрачность - это характеристика многих источников политического финансирования в мире. Если данные NED начнут исчезать также быстро как данные USAID, то важно успеть их сохранить.

Ссылки:
[1] https://www.ned.org/investing-in-freedom-an-introduction-to-the-national-endowment-for-democracy/
[2] https://www.ned.org/2023-annual-report/
[3] https://d-portal.org/ctrack.html?publisher=US-GOV-11#view=act&aid=US-GOV-11-67243
[4] https://web.archive.org/web/20130118073745/http://ned.org/where-we-work/eurasia/russia
[5] https://www.ned.org/region/middle-east-and-northern-africa/
[6] https://iatiregistry.org

#opendata #datasets #usa #spending