Ivan Begtin
9.32K subscribers
2.35K photos
4 videos
110 files
5.05K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
加入频道
Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.

#readings #data #datascience #devops
👍182
Подборка полезных ссылок про данные, технологии и не только:
- Catalogue of predictive models in the humanitarian sector [1] каталог предсказательных моделей в гуманитарном секторе, про погоду, засуху, катастрофы, пандемии и так далее. Большая подборка, в основном от университетов и структур ООН
- OGP Data Dashboard [2] обещания стран по развитию открытости в рамках OGP наложенное на карты. В том числе локальные инициативы
- Rubber Duck Debugging [3] отладка резиновой уточкой, способ программирования код объясняешь код построчно желтой резиновой утке рядом. Можно заменить на плюшевого медведя. Не новость, но полезное напоминание для тех кто задолбался с отладкой;)
- Enhancing findability and searchability of research data: Metadata conversion and registration in institutional repositories [4] научная работа про повышение качества поиска и находимости научных данных. Построено с акцентом на японскую национальную систему публикации научных данных IRDB [5]
- SciLake. Scientific Knowledge Graphs in the heart of Open Science
[6] европейский проект поверх OpenAIRE по сбору дополнительных данных и обогащению метаданных связанных с научными активностями. Больше похоже на параллельные научные гранты по обогащению данных OpenAIRE, не связанные между собой, но результатом может быть интересный открытый код

Ссылки:
[1] https://centre.humdata.org/catalogue-for-predictive-models-in-the-humanitarian-sector/
[2] https://www.opengovpartnership.org/data-dashboard
[3] https://en.wikipedia.org/wiki/Rubber_duck_debugging
[4] https://datascience.codata.org/articles/10.5334/dsj-2024-040
[5] https://irdb.nii.ac.jp
[6] https://scilake.eu

#opendata #datascience #programming #data #openaccess
👍41
Marimo [1] альтернатива Jupyter Notebook по созданию аналитических и научных тетрадок. Среди многих альтернатив отличается наличием открытого кода под лицензией Apache 2.0. Даёт некоторое число фич которых нет у Jupyter, например, встраивание UI элементов, ячейки с SQL, визуализации и ряд других фич.

Конечно, объективно, сравнивать надо не только с Jupyter, но и с Deepnote, Hex, Google Collab, но те врядли будут доступны с исходным кодом.

Ссылки:
[1] https://marimo.io

#opensource #datascience #data #datatools
14👍4
💡 Чем интересен Dateno?

Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.

📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.

👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.

📥 Форматы ресурсов:

CSV — 1 008 646 (15%)

XLSX — 525 329 (7.8%)

XML — 522 501 (7.8%)

JSON — 509 668 (7.6%)

ZIP — 496 709 (7.4%)

PDF — 487 189 (7.3%)

HTML — 475 377 (7.1%)

WMS — 320 159 (4.8%)

NC — 233 229 (3.5%)

XLS — 185 855 (2.8%)

WCS — 141 472 (2.1%)

KML — 122 781 (1.8%)

DOCX — 115 723 (1.7%)

📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.

📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.

🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.

Хочется верить, что это изменится.

#данные #opendata #dateno #datascience #dataengineering
🔥75