🔥11😁9⚡1
Свежий инструмент от HuggingFace - AI Sheets позволяет работать с табличными данными с помощью ИИ. Поддерживает базовые операции вроде перевода содержания колонок, суммаризация и извлечение ключевых слов, и не базовые через prompt запросы. Потенциально - альтернатива Excel/Airtable/OpenRefine для задач чистки и обогащения данных.
Минус - всё в облаке, для тех у кого чувствительные данные
Плюс - всё в облаке, для тех у кого и так данные в Hugging Face
#datanalytics #dataengineering #ai
Минус - всё в облаке, для тех у кого чувствительные данные
Плюс - всё в облаке, для тех у кого и так данные в Hugging Face
#datanalytics #dataengineering #ai
🔥12⚡4
Глядя на продолжающийся поток стартапов применяющий ИИ к разным областям работы с данными, наблюдаю явный перекос в сторону ликвидации профессии корпоративных дата аналитиков как класса и замена их "умными дашбордами" и "ИИ агентами".
Ссылки приводить не буду, дабы не рекламировать кого-то без необходимости, но тенденция явная и заметная, а также хорошо понимания потенциальными клиентами, руководством компаний и иными лицами принимающими решения.
Из того что я вижу так то что ИИ реально может исключить аналитиков из цепочки создания аналитических продуктов и оперативной аналитики, но, чем больше это будет происходить тем острее была и остаётся проблема качества данных.
Качество данных и вся "чёрная работа" связанная с их подготовкой, очисткой, валидацией и тд. очень плохо автоматизируется и вот тут-то стартапов возникает куда меньше. Во первых потому что это внутренняя кухня работы с данными и не на поверхности, а во вторых поскольку у технических руководителей почти всегда значительно меньшие бюджеты.
И, конечно же, в третьих, потенциальные решения и продукты не так очевидны. Я лично вообще пока не вижу каких-то быстрореализуемых "идей на поверхности" как автоматизировать создание хороших наборов и баз данных.
Поэтому мои предсказания что работа аналитиков со временем будет распадаться на:
1. Аналитиков по качеству и подготовке данных
2. Программистов и проектировщиков аналитических AI агентов и дашбордов
3. Предметных специалистов которые ещё и могут немного в аналитику.
А вот у дата инженеров всё проще, пока мало что меняется, только объёмы данных растут.
#thoughts #data #dataengineering
Ссылки приводить не буду, дабы не рекламировать кого-то без необходимости, но тенденция явная и заметная, а также хорошо понимания потенциальными клиентами, руководством компаний и иными лицами принимающими решения.
Из того что я вижу так то что ИИ реально может исключить аналитиков из цепочки создания аналитических продуктов и оперативной аналитики, но, чем больше это будет происходить тем острее была и остаётся проблема качества данных.
Качество данных и вся "чёрная работа" связанная с их подготовкой, очисткой, валидацией и тд. очень плохо автоматизируется и вот тут-то стартапов возникает куда меньше. Во первых потому что это внутренняя кухня работы с данными и не на поверхности, а во вторых поскольку у технических руководителей почти всегда значительно меньшие бюджеты.
И, конечно же, в третьих, потенциальные решения и продукты не так очевидны. Я лично вообще пока не вижу каких-то быстрореализуемых "идей на поверхности" как автоматизировать создание хороших наборов и баз данных.
Поэтому мои предсказания что работа аналитиков со временем будет распадаться на:
1. Аналитиков по качеству и подготовке данных
2. Программистов и проектировщиков аналитических AI агентов и дашбордов
3. Предметных специалистов которые ещё и могут немного в аналитику.
А вот у дата инженеров всё проще, пока мало что меняется, только объёмы данных растут.
#thoughts #data #dataengineering
👌11🤔9✍5😢3
Foursquare официально анонсировали [1] SQLRooms [2]. Это инструмент для построения дашбордов в основе которого DuckDB и интегрированный AI ассистент.
Можно вживую его посмотреть в интерфейсе куда можно загрузить данные и посмотреть запросы к ним [3] и в демо AI аналитика [4]
Про SQLRooms я ранее писал, но теперь он анонсирован официально и я так понимаю что весьма активно развивается.
А ещё они следуют ровно той концепции о которой я ранее писал - Local-first [5]
Ссылки:
[1] https://medium.com/@foursquare/foursquare-introduces-sqlrooms-b6397d53546c
[2] https://sqlrooms.org
[3] https://query.sqlrooms.org/
[4] https://sqlrooms-ai.netlify.app/
[5] https://github.com/sqlrooms/sqlrooms
#opensource #dataanalytics #dataengineering #duckdb
Можно вживую его посмотреть в интерфейсе куда можно загрузить данные и посмотреть запросы к ним [3] и в демо AI аналитика [4]
Про SQLRooms я ранее писал, но теперь он анонсирован официально и я так понимаю что весьма активно развивается.
А ещё они следуют ровно той концепции о которой я ранее писал - Local-first [5]
Ссылки:
[1] https://medium.com/@foursquare/foursquare-introduces-sqlrooms-b6397d53546c
[2] https://sqlrooms.org
[3] https://query.sqlrooms.org/
[4] https://sqlrooms-ai.netlify.app/
[5] https://github.com/sqlrooms/sqlrooms
#opensource #dataanalytics #dataengineering #duckdb
❤9👍3
DataChain [1] хранилище для AI датасетов с неструктурированными данными вроде изображений, видео, аудио, документов. Открытый код, лицензия Apache 2.0, стремительно набирает пользовательскую базу. Опубликовано одноимённым стартапом. Для хранения используют S3, какой-то отдельный язык запросов я не увидел.
За проектом стоит команда которая делала аналог Git'а для данных DVC, а то есть проблематику они должны понимать хорошо.
В коммерческом сервисе обещают всякие ништяки вроде каталога данных, прослеживаемость данных, интерфейс просмотра мультимодальных данных и тд. Но это то на что интересно посмотреть, а так то может быть применение и только open source продукту.
Ссылки:
[1] https://github.com/iterative/datachain
#opensource #dataengineering
За проектом стоит команда которая делала аналог Git'а для данных DVC, а то есть проблематику они должны понимать хорошо.
В коммерческом сервисе обещают всякие ништяки вроде каталога данных, прослеживаемость данных, интерфейс просмотра мультимодальных данных и тд. Но это то на что интересно посмотреть, а так то может быть применение и только open source продукту.
Ссылки:
[1] https://github.com/iterative/datachain
#opensource #dataengineering
GitHub
GitHub - iterative/datachain: ETL, Analytics, Versioning for Unstructured Data
ETL, Analytics, Versioning for Unstructured Data. Contribute to iterative/datachain development by creating an account on GitHub.
⚡5❤3
Свежий любопытный редактор кода и данных NAO [1] профинансирован Y Combinator, предлагают аналог VSCode со встроенным AI ассистентом заточенным под данные, помогает строить пайплайны, разбирает SQL запросы, позволяет делать с данными и запросами к ним всякое. Позиционируется как Cursor для данных и заточенность под SQL.
Из минусов, поддерживает только облачные базы данных и Postgres, не имеет никакой поддержки NoSQL. Из плюсов, тем кто работает с SQL может пригодится.
Ссылки:
[1] https://getnao.io
#dataanalytics #dataengineering
Из минусов, поддерживает только облачные базы данных и Postgres, не имеет никакой поддержки NoSQL. Из плюсов, тем кто работает с SQL может пригодится.
Ссылки:
[1] https://getnao.io
#dataanalytics #dataengineering
👍9❤🔥3
Полезные ссылки про данные, технологии и не только:
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.
#opendata #datasets #dataengineering
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.
#opendata #datasets #dataengineering
Substack
Why Parquet Is the Go-To Format for Data Engineers
With more practical lessons to help you with the data engineering journey
✍4🔥3
Тренды и мысли по поводу данных и ИИ. Собрал в кучу размышления последних недель:
1. Почти все LLM умеют в анализ текстовых и легко преобразуемых в тексты данных и документов и совсем почти не умеют в бинарное, например, разобрать какой-нибудь geopackage или 3D модель или файлы parquet. Интересно появятся ли сервисы умеющие такое или надо делать своё уже?
2. MCP протокол внедряется повсеместно включая сервисы которые предлагают быстрое создание MCP на базе API. При том что MCP выглядит кривым-косым и неправильным архитектурно. Нужны и другие интерфейсы к API и к данным. Причём для данных MCP кажется особенно кривым инструментом. Но тренд явный и нарастающий
3. Корп каталоги данных по прежнему актуальны для задач комплаенса и для организации работы инженеров и data scientist'ов когда есть условно от 5 дата команд и более, но в целом это уже сложившийся и постепенно отмирающий, не развивающийся рынок.
4. Нет сервисов дата документации, не считая Castor'а который купили Coalesce. Сервисы документирования API есть, создания документации к интерфейсам есть, а дата документации автоматизированной нет.
5. Ведущие ИИ агенты хорошо анализируют Excel файлы, и PDF файлы, файлы MS Word, но не дают потокового API для этих задач.
6. Как интегрировать веб-архивацию и LLMки сейчас? Сделать универсальный MCP интерфейс к WARC файлам? Рынка здесь нет, польза может быть.
7. DuckDB массово используется как ядро для огромного числа продуктов, коммерческих, открытых, некоммерческих и тд. Хочешь сделать инструмент для манипуляции данными? DuckDB самый очевидный ответ, альтернативы Polars или Clickhouse
#thoughts #data #dataengineering
1. Почти все LLM умеют в анализ текстовых и легко преобразуемых в тексты данных и документов и совсем почти не умеют в бинарное, например, разобрать какой-нибудь geopackage или 3D модель или файлы parquet. Интересно появятся ли сервисы умеющие такое или надо делать своё уже?
2. MCP протокол внедряется повсеместно включая сервисы которые предлагают быстрое создание MCP на базе API. При том что MCP выглядит кривым-косым и неправильным архитектурно. Нужны и другие интерфейсы к API и к данным. Причём для данных MCP кажется особенно кривым инструментом. Но тренд явный и нарастающий
3. Корп каталоги данных по прежнему актуальны для задач комплаенса и для организации работы инженеров и data scientist'ов когда есть условно от 5 дата команд и более, но в целом это уже сложившийся и постепенно отмирающий, не развивающийся рынок.
4. Нет сервисов дата документации, не считая Castor'а который купили Coalesce. Сервисы документирования API есть, создания документации к интерфейсам есть, а дата документации автоматизированной нет.
5. Ведущие ИИ агенты хорошо анализируют Excel файлы, и PDF файлы, файлы MS Word, но не дают потокового API для этих задач.
6. Как интегрировать веб-архивацию и LLMки сейчас? Сделать универсальный MCP интерфейс к WARC файлам? Рынка здесь нет, польза может быть.
7. DuckDB массово используется как ядро для огромного числа продуктов, коммерческих, открытых, некоммерческих и тд. Хочешь сделать инструмент для манипуляции данными? DuckDB самый очевидный ответ, альтернативы Polars или Clickhouse
#thoughts #data #dataengineering
⚡7✍5👍4
Полезные ссылки про данные, технологии и не только:
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.
#dataengineering #dataanalytics #ai #duckdb
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.
#dataengineering #dataanalytics #ai #duckdb
✍5❤1👍1
💡 Чем интересен Dateno?
Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.
📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.
👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.
📥 Форматы ресурсов:
CSV — 1 008 646 (15%)
XLSX — 525 329 (7.8%)
XML — 522 501 (7.8%)
JSON — 509 668 (7.6%)
ZIP — 496 709 (7.4%)
PDF — 487 189 (7.3%)
HTML — 475 377 (7.1%)
WMS — 320 159 (4.8%)
NC — 233 229 (3.5%)
XLS — 185 855 (2.8%)
WCS — 141 472 (2.1%)
KML — 122 781 (1.8%)
DOCX — 115 723 (1.7%)
📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.
📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.
🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.
Хочется верить, что это изменится.
#данные #opendata #dateno #datascience #dataengineering
Это поисковик по открытым данным, который собирает не только метаданные о датасетах и API, но и ссылки на связанные ресурсы, часть из которых даже архивирует. Это позволяет не только искать данные, но и анализировать, как они публикуются и в каких форматах.
📊 Немного цифр:
На июль 2025 года в Dateno собрано 5 961 849 наборов данных из порталов открытых данных. Это примерно 27% от всех датасетов, слоёв карт и временных рядов, которые агрегируются из разных каталогов и геопорталов.
👀 Что внутри этих датасетов?
У одних нет вообще никаких файлов, у других — сотни вложений. Поэтому корректнее считать не сами датасеты, а количество ресурсов (файлов и ссылок). Их в базе уже 6,7 млн — примерно 1.1 ресурса на один датасет.
📥 Форматы ресурсов:
CSV — 1 008 646 (15%)
XLSX — 525 329 (7.8%)
XML — 522 501 (7.8%)
JSON — 509 668 (7.6%)
ZIP — 496 709 (7.4%)
PDF — 487 189 (7.3%)
HTML — 475 377 (7.1%)
WMS — 320 159 (4.8%)
NC — 233 229 (3.5%)
XLS — 185 855 (2.8%)
WCS — 141 472 (2.1%)
KML — 122 781 (1.8%)
DOCX — 115 723 (1.7%)
📌 CSV — безусловный лидер. Также популярны XLSX, XML, JSON, старый добрый XLS. Геоформаты вроде WMS, WCS, KML встречаются реже, но их роль растёт.
📄 Почему столько PDF, DOCX и HTML?
Часто вместо машиночитаемых данных публикуют отчёты или ссылки на внешние сайты. Иногда приходится буквально вытаскивать данные из PDF-документов.
🤖 А что с форматами для data science?
Формат Parquet, популярный в дата-инженерии и аналитике, встречается крайне редко — всего 1652 файла (меньше 0.025% всех ресурсов!). Печально, но открытые данные пока ещё далеки от удобства для дата-сайентистов.
Хочется верить, что это изменится.
#данные #opendata #dateno #datascience #dataengineering
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
🔥7✍5
Новый инструмент Vanna для Text-to-SQL операций. Под MIT лицензией, обучается на данных, а потом позволяет делать SQL запросы текстовым промптом. Поддерживает множество облачных и локальных векторных хранилищ, больших языковых моделей и баз данных.
Выглядит интересным со всех сторон: лицензия, возможности и тд.
До идеала нехватает ещё поддержки синтаксиса NoSQL (Elasticserch, MongoDB и др.)
Надо пробовать на практике.
#opensource #ai #dataengineering #datatools #dataanalytics
Выглядит интересным со всех сторон: лицензия, возможности и тд.
До идеала нехватает ещё поддержки синтаксиса NoSQL (Elasticserch, MongoDB и др.)
Надо пробовать на практике.
#opensource #ai #dataengineering #datatools #dataanalytics
👍4❤1
Любопытный инструмент SwellDB [1] генерация таблиц и обогащение данных с помощью LLM (OpenAI) с использованием SQL или датафреймов.
Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]
Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.
А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.
Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf
#dataengineering #data #opensource
Инструмент совсем свежий, малоизвестный, идущий вместе со статьями SwellDB: Dynamic Query-Driven Table Generation with Large Language Models [2] и SwellDB: GenAI-Native Query Processing via On-the-Fly Table Generation [3]
Выглядит весьма любопытно для достаточно очевидных справочных данных, такие задачи возникают регулярно.
А ещё этот инструмент поднимает вопрос о том что многие данные теперь доступны не через каталоги и реестры НСИ, а через LLM. С помощью LLM можно создавать новые каталоги данных только из созданных датасетов или вообще обходиться без них.
Ссылки:
[1] https://github.com/SwellDB/SwellDB
[2] https://dl.acm.org/doi/10.1145/3722212.3725136
[3] https://github.com/gsvic/gsvic.github.io/blob/gh-pages/papers/SwellDB_VLDB_PhD_Workshop_2025.pdf
#dataengineering #data #opensource
✍8
В качестве регулярных напоминаний, какое-то время назад я разрабатывал инструмент под названием metacrafter это специальная библиотека для Python, утилита и сервер для идентификации семантических типов данных, удобная для идентификации того что содержится к конкретном поле конкретной базы данных и вспомогательный инструмент для определения персональных данных и другого осмысленного содержания. У него есть достаточно широкий набор общедоступных правил на основе которых он работает.
В его основе принцип local-only, все его правила описываются в YAML файлах которые могут быть описаны как простые перечисления, регулярные выражения (через синтаксис pyparsing) или как функции для Python.
Правил там сейчас 262 для идентификации по наименованиям полей и по их содержанию и ещё 312 для идентификации дат на разных языках по содержанию текста.
Утилита поддерживает любую базу данных через SQLAlchemy и MongoDB, а также файлы CSV, Parquet, JSONL и тд. в том числе в сжатом виде gz, zst, xz и тд.
Более 105 правил сделаны именно под данные связанные с русскоязычными кодами и идентификаторами.
Сейчас, конечно, её надо переосмыслять для применения ИИ поскольку с помощью LLM можно сильно повысить качество её работы, но тогда она перестанет быть инструментом local-only, а станет local-first через опциональное подключение API LLM для анализа данных.
Сейчас, у меня больше всего времени уходит на Dateno поэтому инструмент я хоть и не забросил, но скорее использую её на внутренних данных чем наполняю новыми функциями и правилами.
Если Вы ей пользуетесь, напишите что в ней для полезно, а чего не хватает.
#opensource #data #datatools #dataengineering
В его основе принцип local-only, все его правила описываются в YAML файлах которые могут быть описаны как простые перечисления, регулярные выражения (через синтаксис pyparsing) или как функции для Python.
Правил там сейчас 262 для идентификации по наименованиям полей и по их содержанию и ещё 312 для идентификации дат на разных языках по содержанию текста.
Утилита поддерживает любую базу данных через SQLAlchemy и MongoDB, а также файлы CSV, Parquet, JSONL и тд. в том числе в сжатом виде gz, zst, xz и тд.
Более 105 правил сделаны именно под данные связанные с русскоязычными кодами и идентификаторами.
Сейчас, конечно, её надо переосмыслять для применения ИИ поскольку с помощью LLM можно сильно повысить качество её работы, но тогда она перестанет быть инструментом local-only, а станет local-first через опциональное подключение API LLM для анализа данных.
Сейчас, у меня больше всего времени уходит на Dateno поэтому инструмент я хоть и не забросил, но скорее использую её на внутренних данных чем наполняю новыми функциями и правилами.
Если Вы ей пользуетесь, напишите что в ней для полезно, а чего не хватает.
#opensource #data #datatools #dataengineering
👍14