4CIO
1.18K subscribers
1.13K photos
146 videos
49 files
2.93K links
Независимая редакция с самостоятельной политикой подбора новостей Владельцами канала не является УО 4CIO (на канал распространяется только законодательство свободного мира, “законы” тираний тут не действуют). чатик тут https://yangx.top/+-xskTsyRBWI5NGU0.
加入频道
Forwarded from Ivan Begtin (Ivan Begtin)
Про эксперименты с автоматизированным документированием датасетов, вот живой пример документирования связки DuckDB + LLM. На вход файл в формате Parquet, можно увидеть его содержимое. На выходе таблица с размеченными колонками. Некоторые LLM дают очень хороший результат с описанием колонок на основе их названия с пониманием контекста и расшифровкой полей в зависимости от контекста который LLM тоже понимает.
Осталось дообогатить таблицу семантическим типом данных и добавить генерацию документации. На вход был файл дампа Единого структурированного справочника-каталога лекарственных препаратов (ЕСКЛП), а на выходе его описание.

Осталось понять сделать ли это отдельным инструментом или встроить в ранее созданные утилиты undatum или metacrafter которые тут пересекаются

#datadocumentation #dataengineering #datatools