Вышла новая версия Duckdb 1.2.0 [1] что важно - это существенная оптимизация скорости чтения данных. Пишут что обновили парсер для CSV [2] ускорив его до 15% и общие ускорение на 13% по тестам TPC-H SF100.
Из другого важного - CSV парсер теперь поддерживает кодировки UTF-16 и Latin-1. Это хорошо, но пока недостаточно. Один из актуальных недостатков DuckDB в том что до сих пор он поддерживал только CSV файлы в кодировке UTF-8, а из всех остальных кодировок данные надо было преобразовывать. Почему так лично я до сих пор не знаю, подозреваю что дело в том что команда DuckDB фокусируется на повышении производительности.
Там есть и другие изменения, но, в целом, менее значимые. Основные сценарии использования DuckDB связаны с парсингом CSV и работой с другими дата-файлами и с общей производительностью.
Ссылки:
[1] https://duckdb.org/2025/02/05/announcing-duckdb-120
[2] https://github.com/duckdb/duckdb/pull/14260
#opensource #duckdb #datatools #rdbms
Из другого важного - CSV парсер теперь поддерживает кодировки UTF-16 и Latin-1. Это хорошо, но пока недостаточно. Один из актуальных недостатков DuckDB в том что до сих пор он поддерживал только CSV файлы в кодировке UTF-8, а из всех остальных кодировок данные надо было преобразовывать. Почему так лично я до сих пор не знаю, подозреваю что дело в том что команда DuckDB фокусируется на повышении производительности.
Там есть и другие изменения, но, в целом, менее значимые. Основные сценарии использования DuckDB связаны с парсингом CSV и работой с другими дата-файлами и с общей производительностью.
Ссылки:
[1] https://duckdb.org/2025/02/05/announcing-duckdb-120
[2] https://github.com/duckdb/duckdb/pull/14260
#opensource #duckdb #datatools #rdbms
DuckDB
Announcing DuckDB 1.2.0
The DuckDB team is happy to announce that today we're releasing DuckDB version 1.2.0, codenamed “Histrionicus”.
Полезные ссылки про данные технологии и не только:
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]
Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html
#opensource #ai #data #datatools #rdbms
- Graph Databases after 15 Years – Where Are They Headed? [1] автор рассказывает об эволюции графовых баз данных и главный вывод что они стали очень нишевыми и в упадке, кроме очень узких применений.
- Keep Canvases Moving with DuckDB on the Server [2] count.io, сервис онлайн BI внедрили DuckDB для выполнения серверных запросов. Результаты в немедленном сокращении стоимости их выполнения.
- Polars Cloud; the distributed Cloud Architecture to run Polars anywhere [3] команда Polars запустила облачный сервис со своим продуктом, пока в режиме раннего доступа. Обещают масштабирование датафреймов и тд. Главное чтобы их открытый продукт при этом не пострадал или не оказался под какой-нибудь не совсем открытой лицензией.
- What Is a Flat File? [4] обзор текстовых форматов распространения файлов, поверхностный, но полезный для начинающих.
- Mistral OCR [5] переводчик PDF файлов в файлы Markdown от команды создателей Mistral AI. Говорят сами про себя что они лучшие в этом деле, но проверить пока не проверял.
- Aider is AI pair programming in your terminal [6] инструмент для подключения ИИ к написанию кода, умеет подключаться ко множеству моделей включая локальные. В том числе примеры по работе с данными [7]
Ссылки:
[1] https://www.youtube.com/watch?v=X_RFo616M_U
[2] https://count.co/blog/announcing-duckdb-on-the-server
[3] https://pola.rs/posts/polars-cloud-what-we-are-building/
[4] https://evidence.dev/blog/what-is-a-flat-file
[5] https://mistral.ai/news/mistral-ocr
[6] https://aider.chat/
[7] https://aider.chat/examples/census.html
#opensource #ai #data #datatools #rdbms
YouTube
Graph Databases after 15 Years – Where Are They Headed?
Speaker: Gábor Szárnyas (LDBC)
Event: Data Analytics developer room at FOSDEM 2025
Talk page: https://fosdem.org/2025/schedule/track/analytics/
Slides: https://szarnyasg.org/talks/fosdem-2025-graph-databases-szarnyasg.pdf
Event: Data Analytics developer room at FOSDEM 2025
Talk page: https://fosdem.org/2025/schedule/track/analytics/
Slides: https://szarnyasg.org/talks/fosdem-2025-graph-databases-szarnyasg.pdf
Ещё одна любопытная СУБД для аналитики GreptimeDB [1] на высоких позициях в метриках JSONBench [2] и похоже что хорошо годится для сохранения логов и как JSON хранилище.
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0
Не удалось найти какой движок внутри, похоже какой-то собственный.
Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.
Даже странно что он не так уж популярен.
Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com
#opensource #rdbms #data #datatools
Существует в форме открытого кода, коммерческого продукта и облака. Открытый код под лицензией Apache 2.0
Не удалось найти какой движок внутри, похоже какой-то собственный.
Продукт относительно новый, менее 2-х лет, но с венчурным финансированием в 2022 и 2023 годах.
Даже странно что он не так уж популярен.
Ссылки:
[1] https://greptime.com
[2] https://jsonbench.com
#opensource #rdbms #data #datatools
Для тех кто пользуется или планирует пользоваться DuckDB я закинул в рассылку подборку ограничений и особенностей применения из личного опыта.
На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.
#duckdb #rdbms #datatools
На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.
#duckdb #rdbms #datatools
Substack
DuckDB на практике. Ограничения о которых важно знать
Я много пишу о DuckDB, особенно у себя в телеграм канале и не просто так, ведь DuckDB - это реально удобный и инструмент значительно упрощающий работу с большими базами данных на десктопах.