Ivan Begtin
8.09K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Пишут что PostgreSQL 17 может заменить NoSQL базы данных [1] потому что умеет грузить безсхемные JSON документы и обзавёлся несколькими функциями для работы с JSON документами. Новости прекрасная, если там всё так хорошо как описано, то это есть на чём проверить, очень хочется качественного сравнения с MongoDB и другими NoSQL СУБД построенными по модели хранения документов (MongoDB, ArangoDB и др), а также поисковые СУБД вроде Elastic, Meilisearch и тд.

Во многих СУБД есть поддержка JSON, но они оказываются весьма придирчивы к содержанию загружаемых документов. Потому и интересно как это сейчас в PostgreSQL.

И, в дополнение, полезный текст Postgres is eating the database world [2] о том как PostgreSQL вырос в мощную экосистему за последние годы.

Ссылки:
[1] https://www.linkedin.com/posts/mehd-io_the-last-release-of-postgresql-17-silently-activity-7250122811581640706-RLBD
[2] https://medium.com/@fengruohang/postgres-is-eating-the-database-world-157c204dcfc4

#data #opensource #postgresql
Полезная статья Is MySQL Dying? [1] для понимания того как развиваются современные СУБД, от Tim Sehn, создателя облачной СУБД Dolt, совместимой с MySQL.

Сам продукт Dolt интересный, это одна из немногих версионируемых СУБД, её, например, активно используют в игровой индустрии. Но тут интереснее прочитать про судьбу экосистемы MySQL.

Можно узнать, например, что AWS гораздо эффективнее монетизирует MySQL совместимую облачную СУБД чем Oracle, де факто владелец MariaDB PLC, компании создающей оригинальную версию MySQL/MariaDB. При этом интерес к MySQL с годами снижается, а к PostgreSQL, наоборот, растёт. Автор связывает это, в том числе, с тем что в PostgreSQL значительно раньше появилась поддержка векторов и, соответственно, применение СУБД для LLM значительно продвинулось, а в MySQL поддержка векторов появилась совсем недавно.

Ссылки:
[1] https://www.dolthub.com/blog/2024-10-14-is-mysql-dying/

#opensource #rdbms #mysql #postgresql
JSONBench [1] свежий бенчмарк для аналитических баз данных работающих с JSON от команды ClickHouse. Ожидаемо в бенчмарке ClickHouse на первых местах ;), но надо отдать им должное, в блоге у них подробный методологический рассказ про это [2] и конкуренты могут прийти и возразить обоснованно, если, конечно, придут.

Сам бенчмарк основан на датасете размером в 482GB в несжатом виде событий из соцсети BlueSky. В сжатом с помощью zstd виде они занимают 124GB, а в ClickHouse 99GB и 622GB в PostgreSQL.

Споры тут могут быть, в основном, исходя из моделей использования и подходов. К примеру, у DuckDB есть тип данных JSON, но в целом с его помощью можно работать с JSON файлами как с таблицами и импортировать их не в JSON тип, а сразу развертывать в табличную форму.

Что я лично и сделал бы с этими данными BlueSky вначале преобразовав из в Parquet.

С другой стороны способность ClickHouse работать с JSON объектами явно растёт и с той точки измерений что они проводили - это хороший тест.

Ссылки:
[1] https://jsonbench.com/
[2] https://clickhouse.com/blog/json-bench-clickhouse-vs-mongodb-elasticsearch-duckdb-postgresql

#clickhouse #postgresql #mongodb #duckdb #benchmark #json #rdbms
Полезные ссылки про данные, технологии и не только:
- DocumentDB: Open-Source Announcement [1] похоже Microsoft выложили в открытый код [2] новый NoSQL продукт, прямой конкурент MongoDB. Внутри там FerretDB и PostgreSQL, бенчмарки пока не наблюдаются, что странно. Может быть в ClickBench/JSONBench они появятся через какое-то время. Пока главное достоинство лицензия MIT.
- ai_query function [3] в Databricks есть функция ai_query которую можно использовать прямо в SQL запросе и которая позволяет обрабатывать данные с помощью одной из LLM специальным запросом. Осталось подождать когда такая функция или аналог появятся во всех современных RDBMS
- Human-Computer Input via a Wrist-Based sEMG Wearable [4] исследование Meta про уличную магию про использование жестов для управления устройствами. Помимо того что это может поменять многое в обыденной жизни тут ещё и много открытых наборов данных Я думал такие устройства будут делать в виде тонких перчаток, а оказывается что можно в виде браслета.
- pg_mooncake. Postgres extension for 1000x faster analytics [5] расширение для колоночных таблиц для PostgreSQL для ускорения аналитики. Внутри, ожидаемо, DuckDB

Ссылки:
[1] https://opensource.microsoft.com/blog/2025/01/23/documentdb-open-source-announcement/
[2] https://github.com/microsoft/documentdb
[3] https://docs.databricks.com/en/sql/language-manual/functions/ai_query.html#examples
[4] https://www.meta.com/blog/surface-emg-wrist-white-paper-reality-labs/
[5] https://github.com/Mooncake-Labs/pg_mooncake

#opensource #rdbms #postgresql #duckdb #datatools