Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
JSONBench [1] свежий бенчмарк для аналитических баз данных работающих с JSON от команды ClickHouse. Ожидаемо в бенчмарке ClickHouse на первых местах ;), но надо отдать им должное, в блоге у них подробный методологический рассказ про это [2] и конкуренты могут прийти и возразить обоснованно, если, конечно, придут.

Сам бенчмарк основан на датасете размером в 482GB в несжатом виде событий из соцсети BlueSky. В сжатом с помощью zstd виде они занимают 124GB, а в ClickHouse 99GB и 622GB в PostgreSQL.

Споры тут могут быть, в основном, исходя из моделей использования и подходов. К примеру, у DuckDB есть тип данных JSON, но в целом с его помощью можно работать с JSON файлами как с таблицами и импортировать их не в JSON тип, а сразу развертывать в табличную форму.

Что я лично и сделал бы с этими данными BlueSky вначале преобразовав из в Parquet.

С другой стороны способность ClickHouse работать с JSON объектами явно растёт и с той точки измерений что они проводили - это хороший тест.

Ссылки:
[1] https://jsonbench.com/
[2] https://clickhouse.com/blog/json-bench-clickhouse-vs-mongodb-elasticsearch-duckdb-postgresql

#clickhouse #postgresql #mongodb #duckdb #benchmark #json #rdbms