Любопытный инструмент SwellDB [1] генерация таблиц и обогащение данных с помощью LLM (OpenAI) с использованием SQL или датафреймов.
Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]
Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.
А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.
Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf
#dataengineering #data #opensource
Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]
Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.
А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.
Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf
#dataengineering #data #opensource
✍8
В качестве регулярных напоминаний, какое-то время назад я разрабатывал инструмент под названием metacrafter это специальная библиотека для Python, утилита и сервер для идентификации семантических типов данных, удобная для идентификации того что содержится к конкретном поле конкретной базы данных и вспомогательный инструмент для определения персональных данных и другого осмысленного содержания. У него есть достаточно широкий набор общедоступных правил на основе которых он работает.
В его основе принцип local-only, все его правила описываются в YAML файлах которые могут быть описаны как простые перечисления, регулярные выражения (через синтаксис pyparsing) или как функции для Python.
Правил там сейчас 262 для идентификации по наименованиям полей и по их содержанию и ещё 312 для идентификации дат на разных языках по содержанию текста.
Утилита поддерживает любую базу данных через SQLAlchemy и MongoDB, а также файлы CSV, Parquet, JSONL и тд. в том числе в сжатом виде gz, zst, xz и тд.
Более 105 правил сделаны именно под данные связанные с русскоязычными кодами и идентификаторами.
Сейчас, конечно, её надо переосмыслять для применения ИИ поскольку с помощью LLM можно сильно повысить качество её работы, но тогда она перестанет быть инструментом local-only, а станет local-first через опциональное подключение API LLM для анализа данных.
Сейчас, у меня больше всего времени уходит на Dateno поэтому инструмент я хоть и не забросил, но скорее использую её на внутренних данных чем наполняю новыми функциями и правилами.
Если Вы ей пользуетесь, напишите что в ней для полезно, а чего не хватает.
#opensource #data #datatools #dataengineering
В его основе принцип local-only, все его правила описываются в YAML файлах которые могут быть описаны как простые перечисления, регулярные выражения (через синтаксис pyparsing) или как функции для Python.
Правил там сейчас 262 для идентификации по наименованиям полей и по их содержанию и ещё 312 для идентификации дат на разных языках по содержанию текста.
Утилита поддерживает любую базу данных через SQLAlchemy и MongoDB, а также файлы CSV, Parquet, JSONL и тд. в том числе в сжатом виде gz, zst, xz и тд.
Более 105 правил сделаны именно под данные связанные с русскоязычными кодами и идентификаторами.
Сейчас, конечно, её надо переосмыслять для применения ИИ поскольку с помощью LLM можно сильно повысить качество её работы, но тогда она перестанет быть инструментом local-only, а станет local-first через опциональное подключение API LLM для анализа данных.
Сейчас, у меня больше всего времени уходит на Dateno поэтому инструмент я хоть и не забросил, но скорее использую её на внутренних данных чем наполняю новыми функциями и правилами.
Если Вы ей пользуетесь, напишите что в ней для полезно, а чего не хватает.
#opensource #data #datatools #dataengineering
👍14