Ivan Begtin
9.13K subscribers
2.04K photos
3 videos
102 files
4.77K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
December 11, 2020
Команда Clickhouse выложила ClickBench [1] методологию, инструмент и результаты сравнения аналитических баз данных. Сравнивают много что: Aurora, Athena, Clickhouse, MySQL, Druid, Greenplum и тд. Около 30 разных продуктов в разных конфигурациях.

Что особенно хорошо - методология и реализация с открытым кодом [2] При этом по թ-м из 4-х метрик Clickhouse лидирует: Hot Run и Storage Size, по остальным находит в лидерах, уступая Snowflake по Cold Run и Athena по Load Time. Ценно также в отображении проблем которые возникают у многих движков в работе с большим объёмом данных.

Для тех кто выбирает инструмент для построения аналитического продукта это сравнение будет весьма полезным.

Но, всегда важно помнить ограничения, несмотря на хорошую проработку бенчмарка, странно не увидеть в нём прямых конкурентов Clickhouse вроде Starrocks, которые ещё недавно писали что превосходят Clickhouse по производительности [3].

Ссылки:
[1] https://benchmark.clickhouse.com/
[2] https://github.com/ClickHouse/ClickBench/
[3] https://starrocks.com/blog/benchmark-test

#datatools #dbms #data #benchmarks #clickhouse
July 15, 2022
Команда Clickhouse, создателей одной из лучших аналитических СУБД, запустили бета версию облачной версии продукта [1]. Сейчас облако работает с поминутной тарификацией на базе инфраструктуры AWS․ Главное достоинство в том что продукт непосредственно от команды разработчиков Clickhouse, а значит можно надеяться на лучшую производительность и техническую поддержку.

При том что кластеры на Clickhouse существуют уже много где. Например, в Яндекс облаке [2] с ежесуточной и ежемесячной тарификацией и в самом AWS [3].

Clickhouse не единственная СУБД для аналитики в реальном времени на базе которой создаются DBAAS (database-as-a-service) продукты. Например, команда их менее популярного, но близкого по производительности, конкурента StarRocks анонсировали появление их облака в 3-м квартале 2022 г. [4]. 3-й квартал вот только что прошёл, ждём когда же можно будет увидеть обещанное.

А я напомню интересную штуку от Clickhouse по открытым замерам производительности баз данных [5] с весьма неплохим их сравнением.

Ссылки:
[1] https://clickhouse.com/blog/clickhouse-cloud-public-beta
[2] https://cloud.yandex.com/en/services/managed-clickhouse
[3] https://aws.amazon.com/ru/quickstart/architecture/clickhouse-cluster/
[4] https://starrocks.io/blog/starrocks-launches-the-industrys-fastest-cloud-native-real-time-analytics-engine
[5] https://benchmark.clickhouse.com

#opensource #startups #dbms #clickhouse
October 5, 2022
August 7, 2024
В блоге Clickhouse о том как ускорять запросы в Pandas в 87 раз [1], что, с одной стороны неплохо, а с другой стороны лукавство. Потому что есть Polars, Daft и, конечно, DuckDB. То что chDB может ускорить приведенный пример запросов в 87 раз - вполне можно поверить, но другие то продукты и побыстрее могут.

В общем, в плане технологического евангелизма тут какой-то провал, из рассказов про chDB я вижу только один резон применять его, если вся инфраструктура построена на Clickhouse и есть люди в команде поднаторевшие в оптимизации Clickhouse.

А в данном конкретном случае всё выглядит довольно сомнительно в плане выгоды от применения продукт без рассмотрения альтернатив.

Ссылки:
[1] https://clickhouse.com/blog/chdb-pandas-dataframes-87x-faster

#opensource #clickhouse #datatools
September 9, 2024
January 30