Ivan Begtin
9.32K subscribers
2.34K photos
4 videos
110 files
5.05K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
加入频道
💡 Чем интересен Dateno?

Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.

📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.

👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.

📥 Форматы ресурсов:

CSV — 1 008 646 (15%)

XLSX — 525 329 (7.8%)

XML — 522 501 (7.8%)

JSON — 509 668 (7.6%)

ZIP — 496 709 (7.4%)

PDF — 487 189 (7.3%)

HTML — 475 377 (7.1%)

WMS — 320 159 (4.8%)

NC — 233 229 (3.5%)

XLS — 185 855 (2.8%)

WCS — 141 472 (2.1%)

KML — 122 781 (1.8%)

DOCX — 115 723 (1.7%)

📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.

📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.

🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.

Хочется верить, что это изменится.

#данные #opendata #dateno #datascience #dataengineering
🔥75
Новый инструмент Vanna для Text-to-SQL операций. Под MIT лицензией, обучается на данных, а потом позволяет делать SQL запросы текстовым промптом. Поддерживает множество облачных и локальных векторных хранилищ, больших языковых моделей и баз данных.

Выглядит интересным со всех сторон: лицензия, возможности и тд.

До идеала нехватает ещё поддержки синтаксиса NoSQL (Elasticserch, MongoDB и др.)

Надо пробовать на практике.

#opensource #ai #dataengineering #datatools #dataanalytics
👍41
Любопытный инструмент SwellDB [1] генерация таблиц и обогащение данных с помощью LLM (OpenAI) с использованием SQL или датафреймов.

Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]

Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.

А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.

Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf

#dataengineering #data #opensource
8
В качестве регулярных напоминаний, какое-то время назад я разрабатывал инструмент под названием metacrafter это специальная библиотека для Python, утилита и сервер для идентификации семантических типов данных, удобная для идентификации того что содержится к конкретном поле конкретной базы данных и вспомогательный инструмент для определения персональных данных и другого осмысленного содержания. У него есть достаточно широкий набор общедоступных правил на основе которых он работает.

В его основе принцип local-only, все его правила описываются в YAML файлах которые могут быть описаны как простые перечисления, регулярные выражения (через синтаксис pyparsing) или как функции для Python.

Правил там сейчас 262 для идентификации по наименованиям полей и по их содержанию и ещё 312 для идентификации дат на разных языках по содержанию текста.

Утилита поддерживает любую базу данных через SQLAlchemy и MongoDB, а также файлы CSV, Parquet, JSONL и тд. в том числе в сжатом виде gz, zst, xz и тд.

Более 105 правил сделаны именно под данные связанные с русскоязычными кодами и идентификаторами.

Сейчас, конечно, её надо переосмыслять для применения ИИ поскольку с помощью LLM можно сильно повысить качество её работы, но тогда она перестанет быть инструментом local-only, а станет local-first через опциональное подключение API LLM для анализа данных.

Сейчас, у меня больше всего времени уходит на Dateno поэтому инструмент я хоть и не забросил, но скорее использую её на внутренних данных чем наполняю новыми функциями и правилами.

Если Вы ей пользуетесь, напишите что в ней для полезно, а чего не хватает.

#opensource #data #datatools #dataengineering
👍14