Ivan Begtin
9.33K subscribers
2.34K photos
4 videos
110 files
5.04K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
加入频道
Полезные ссылки про технологии, данные и не только:
- vectorless - браузерное приложение (privacy-first) для общения с PDF документами без серверной обработки и векторных баз данных. Хорошая штука, как скоро это станет трендом?
- Vibe Analysis - ещё один автор рассуждает о применении ИИ для дата анализа. Слишком оптимистично, как по мне. Но много ссылок на продукты в этой области и, в принципе, небесполезно
- AGENT.md: The Universal Agent Configuration File попытка стандартизации описания ИИ агентов, не очень сложное, непонятно насколько будет поддержано кем-то
- POML: Prompt Orchestration Markup Language а тут попытка стандартизации промпт-инженерии, но от Microsoft. Ориентировано на систематизацию и на данные
- EnrichMCP ещё один инструмент для превращения баз данных в MCP API. Насколько лучше других сказать не берусь.

#ai #opensource #standards
4👍3
В качестве регулярных напоминаний, какое-то время назад я разрабатывал инструмент под названием metacrafter это специальная библиотека для Python, утилита и сервер для идентификации семантических типов данных, удобная для идентификации того что содержится к конкретном поле конкретной базы данных и вспомогательный инструмент для определения персональных данных и другого осмысленного содержания. У него есть достаточно широкий набор общедоступных правил на основе которых он работает.

В его основе принцип local-only, все его правила описываются в YAML файлах которые могут быть описаны как простые перечисления, регулярные выражения (через синтаксис pyparsing) или как функции для Python.

Правил там сейчас 262 для идентификации по наименованиям полей и по их содержанию и ещё 312 для идентификации дат на разных языках по содержанию текста.

Утилита поддерживает любую базу данных через SQLAlchemy и MongoDB, а также файлы CSV, Parquet, JSONL и тд. в том числе в сжатом виде gz, zst, xz и тд.

Более 105 правил сделаны именно под данные связанные с русскоязычными кодами и идентификаторами.

Сейчас, конечно, её надо переосмыслять для применения ИИ поскольку с помощью LLM можно сильно повысить качество её работы, но тогда она перестанет быть инструментом local-only, а станет local-first через опциональное подключение API LLM для анализа данных.

Сейчас, у меня больше всего времени уходит на Dateno поэтому инструмент я хоть и не забросил, но скорее использую её на внутренних данных чем наполняю новыми функциями и правилами.

Если Вы ей пользуетесь, напишите что в ней для полезно, а чего не хватает.

#opensource #data #datatools #dataengineering
👍14