В рубрике интересных продуктов для работы с данными PuppyGraph [1] (Щенячий граф) стартап и open-source продукт для взаимодействия с SQL базами данных с помощью графовых языков запросов таких как Gremlin и openCypher.
Основной лозунг под которым продукт продвигают это Query your relational data as a graph in real-time. Zero ETL. Главный акцент тут на том что графовые базы данных неудобны всегда были тем что туда необходимо было переносить данные из реляционных баз и это означало увеличение объёмов хранения и затраты ресурсов на обработку данных. А тут движок позволяет работать с условным PostgreSQL напрямую запросами.
Open source версия доступна под лицензией Apache 2.0 [2]. Команда в ноябре 2024 г. подняла $5 миллионов инвестиций [3], а сам продукт в первой версии появился ещё в марте 2024 года.
Ссылки:
[1] https://www.puppygraph.com
[2] https://github.com/puppygraph/puppygraph-query
[3] https://www.puppygraph.com/blog/puppygraph-raises-5-million-in-seed-funding-led-by-defy-vc
#opensource #rdbms #datatools
Основной лозунг под которым продукт продвигают это Query your relational data as a graph in real-time. Zero ETL. Главный акцент тут на том что графовые базы данных неудобны всегда были тем что туда необходимо было переносить данные из реляционных баз и это означало увеличение объёмов хранения и затраты ресурсов на обработку данных. А тут движок позволяет работать с условным PostgreSQL напрямую запросами.
Open source версия доступна под лицензией Apache 2.0 [2]. Команда в ноябре 2024 г. подняла $5 миллионов инвестиций [3], а сам продукт в первой версии появился ещё в марте 2024 года.
Ссылки:
[1] https://www.puppygraph.com
[2] https://github.com/puppygraph/puppygraph-query
[3] https://www.puppygraph.com/blog/puppygraph-raises-5-million-in-seed-funding-led-by-defy-vc
#opensource #rdbms #datatools
JSONBench [1] свежий бенчмарк для аналитических баз данных работающих с JSON от команды ClickHouse. Ожидаемо в бенчмарке ClickHouse на первых местах ;), но надо отдать им должное, в блоге у них подробный методологический рассказ про это [2] и конкуренты могут прийти и возразить обоснованно, если, конечно, придут.
Сам бенчмарк основан на датасете размером в 482GB в несжатом виде событий из соцсети BlueSky. В сжатом с помощью zstd виде они занимают 124GB, а в ClickHouse 99GB и 622GB в PostgreSQL.
Споры тут могут быть, в основном, исходя из моделей использования и подходов. К примеру, у DuckDB есть тип данных JSON, но в целом с его помощью можно работать с JSON файлами как с таблицами и импортировать их не в JSON тип, а сразу развертывать в табличную форму.
Что я лично и сделал бы с этими данными BlueSky вначале преобразовав из в Parquet.
С другой стороны способность ClickHouse работать с JSON объектами явно растёт и с той точки измерений что они проводили - это хороший тест.
Ссылки:
[1] https://jsonbench.com/
[2] https://clickhouse.com/blog/json-bench-clickhouse-vs-mongodb-elasticsearch-duckdb-postgresql
#clickhouse #postgresql #mongodb #duckdb #benchmark #json #rdbms
Сам бенчмарк основан на датасете размером в 482GB в несжатом виде событий из соцсети BlueSky. В сжатом с помощью zstd виде они занимают 124GB, а в ClickHouse 99GB и 622GB в PostgreSQL.
Споры тут могут быть, в основном, исходя из моделей использования и подходов. К примеру, у DuckDB есть тип данных JSON, но в целом с его помощью можно работать с JSON файлами как с таблицами и импортировать их не в JSON тип, а сразу развертывать в табличную форму.
Что я лично и сделал бы с этими данными BlueSky вначале преобразовав из в Parquet.
С другой стороны способность ClickHouse работать с JSON объектами явно растёт и с той точки измерений что они проводили - это хороший тест.
Ссылки:
[1] https://jsonbench.com/
[2] https://clickhouse.com/blog/json-bench-clickhouse-vs-mongodb-elasticsearch-duckdb-postgresql
#clickhouse #postgresql #mongodb #duckdb #benchmark #json #rdbms
Полезные ссылки про данные, технологии и не только:
- DocumentDB: Open-Source Announcement [1] похоже Microsoft выложили в открытый код [2] новый NoSQL продукт, прямой конкурент MongoDB. Внутри там FerretDB и PostgreSQL, бенчмарки пока не наблюдаются, что странно. Может быть в ClickBench/JSONBench они появятся через какое-то время. Пока главное достоинство лицензия MIT.
- ai_query function [3] в Databricks есть функция ai_query которую можно использовать прямо в SQL запросе и которая позволяет обрабатывать данные с помощью одной из LLM специальным запросом. Осталось подождать когда такая функция или аналог появятся во всех современных RDBMS
- Human-Computer Input via a Wrist-Based sEMG Wearable [4] исследование Metaпро уличную магию про использование жестов для управления устройствами. Помимо того что это может поменять многое в обыденной жизни тут ещё и много открытых наборов данных Я думал такие устройства будут делать в виде тонких перчаток, а оказывается что можно в виде браслета.
- pg_mooncake. Postgres extension for 1000x faster analytics [5] расширение для колоночных таблиц для PostgreSQL для ускорения аналитики. Внутри, ожидаемо, DuckDB
Ссылки:
[1] https://opensource.microsoft.com/blog/2025/01/23/documentdb-open-source-announcement/
[2] https://github.com/microsoft/documentdb
[3] https://docs.databricks.com/en/sql/language-manual/functions/ai_query.html#examples
[4] https://www.meta.com/blog/surface-emg-wrist-white-paper-reality-labs/
[5] https://github.com/Mooncake-Labs/pg_mooncake
#opensource #rdbms #postgresql #duckdb #datatools
- DocumentDB: Open-Source Announcement [1] похоже Microsoft выложили в открытый код [2] новый NoSQL продукт, прямой конкурент MongoDB. Внутри там FerretDB и PostgreSQL, бенчмарки пока не наблюдаются, что странно. Может быть в ClickBench/JSONBench они появятся через какое-то время. Пока главное достоинство лицензия MIT.
- ai_query function [3] в Databricks есть функция ai_query которую можно использовать прямо в SQL запросе и которая позволяет обрабатывать данные с помощью одной из LLM специальным запросом. Осталось подождать когда такая функция или аналог появятся во всех современных RDBMS
- Human-Computer Input via a Wrist-Based sEMG Wearable [4] исследование Meta
- pg_mooncake. Postgres extension for 1000x faster analytics [5] расширение для колоночных таблиц для PostgreSQL для ускорения аналитики. Внутри, ожидаемо, DuckDB
Ссылки:
[1] https://opensource.microsoft.com/blog/2025/01/23/documentdb-open-source-announcement/
[2] https://github.com/microsoft/documentdb
[3] https://docs.databricks.com/en/sql/language-manual/functions/ai_query.html#examples
[4] https://www.meta.com/blog/surface-emg-wrist-white-paper-reality-labs/
[5] https://github.com/Mooncake-Labs/pg_mooncake
#opensource #rdbms #postgresql #duckdb #datatools
Microsoft Open Source Blog
DocumentDB: Open-Source Announcement - Microsoft Open Source Blog
Learn more on how Microsoft Open Source can help with you with your data stores with the announcement of DocumentDB.
Вышла новая версия Duckdb 1.2.0 [1] что важно - это существенная оптимизация скорости чтения данных. Пишут что обновили парсер для CSV [2] ускорив его до 15% и общие ускорение на 13% по тестам TPC-H SF100.
Из другого важного - CSV парсер теперь поддерживает кодировки UTF-16 и Latin-1. Это хорошо, но пока недостаточно. Один из актуальных недостатков DuckDB в том что до сих пор он поддерживал только CSV файлы в кодировке UTF-8, а из всех остальных кодировок данные надо было преобразовывать. Почему так лично я до сих пор не знаю, подозреваю что дело в том что команда DuckDB фокусируется на повышении производительности.
Там есть и другие изменения, но, в целом, менее значимые. Основные сценарии использования DuckDB связаны с парсингом CSV и работой с другими дата-файлами и с общей производительностью.
Ссылки:
[1] https://duckdb.org/2025/02/05/announcing-duckdb-120
[2] https://github.com/duckdb/duckdb/pull/14260
#opensource #duckdb #datatools #rdbms
Из другого важного - CSV парсер теперь поддерживает кодировки UTF-16 и Latin-1. Это хорошо, но пока недостаточно. Один из актуальных недостатков DuckDB в том что до сих пор он поддерживал только CSV файлы в кодировке UTF-8, а из всех остальных кодировок данные надо было преобразовывать. Почему так лично я до сих пор не знаю, подозреваю что дело в том что команда DuckDB фокусируется на повышении производительности.
Там есть и другие изменения, но, в целом, менее значимые. Основные сценарии использования DuckDB связаны с парсингом CSV и работой с другими дата-файлами и с общей производительностью.
Ссылки:
[1] https://duckdb.org/2025/02/05/announcing-duckdb-120
[2] https://github.com/duckdb/duckdb/pull/14260
#opensource #duckdb #datatools #rdbms
DuckDB
Announcing DuckDB 1.2.0
The DuckDB team is happy to announce that today we're releasing DuckDB version 1.2.0, codenamed “Histrionicus”.
Полезные ссылки про данные технологии и не только:
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]
Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html
#opensource #ai #data #datatools #rdbms
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]
Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html
#opensource #ai #data #datatools #rdbms
YouTube
Graph Databases after 15 Years – Where Are They Headed?
Speaker: Gábor Szárnyas (LDBC)
Event: Data Analytics developer room at FOSDEM 2025
Talk page: https://fosdem.org/2025/schedule/track/analytics/
Slides: https://szarnyasg.org/talks/fosdem-2025-graph-databases-szarnyasg.pdf
Event: Data Analytics developer room at FOSDEM 2025
Talk page: https://fosdem.org/2025/schedule/track/analytics/
Slides: https://szarnyasg.org/talks/fosdem-2025-graph-databases-szarnyasg.pdf
Ещё одна любопытная СУБД для аналитики GreptimeDB [1] на высоких позициях в метриках JSONBench [2] и похоже что хорошо годится для сохранения логов и как JSON хранилище.
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0
Не удалось найти какой движок внутри, похоже какой-то собственный.
Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.
Даже странно что он не так уж популярен.
Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com
#opensource #rdbms #data #datatools
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0
Не удалось найти какой движок внутри, похоже какой-то собственный.
Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.
Даже странно что он не так уж популярен.
Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com
#opensource #rdbms #data #datatools
Для тех кто пользуется или планирует пользоваться DuckDB я закинул в рассылку подборку ограничений и особенностей применения из личного опыта.
На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.
#duckdb #rdbms #datatools
На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.
#duckdb #rdbms #datatools
Substack
DuckDB на практике. Ограничения о которых важно знать
Я много пишу о DuckDB, особенно у себя в телеграм канале и не просто так, ведь DuckDB - это реально удобный и инструмент значительно упрощающий работу с большими базами данных на десктопах.