Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
У Clickhouse [1], несомненно одной из лучших OLAP баз данных приспособленных для аналитики, появился довольно интересный конкурент StarRocks [2]. СУБД совместимая с MySQL по синтаксису и протоколу, основанная на Apache Doris [3], когда-то известной под именем Palo и переданная в проект Apache компанией Baidu. Команда StarRocks пишут что взяли код Apache Doris в начале 2020 года и основательно его переписали и дополнили так что теперь только 40% кода идентично оригинальному проекту.

У StarRocks много многообещающих функций, например, query federation для прямого доступа к данным в MySQL или ElasticSearch без импорта данных, а также высокая производительность всех запросов.

У них в блоге большой обзор сравнения с Clickhouse при миграции баз данных в Trips.com [4], главные аргументы перехода там в том что StarRocks обеспечивает более быстрое выполнение запросов и то что у Clickhouse усечённый SQL диалект. Поэтому по всем параметрам на StarRocks стоит обратить внимание, особенно когда текущий стек данных основан на MySQL.

Правда, здесь важно помнить что Clickhouse в конце 2021 года привлек финансирование в 250 миллионов долларов США [5] и активно развивается. С точки зрения зрелости продукта, он конечно гораздо более пригоден для промышленной эксплуатации.

Ссылки:
[1] https://clickhouse.com
[2] https://www.starrocks.com
[3] https://doris.apache.org
[4] https://starrocks.medium.com/trip-com-starrocks-efficiently-supports-high-concurrent-queries-dramatically-reduces-labor-and-1e1921dd6bf8
[5] https://clickhouse.com/blog/en/2021/clickhouse-raises-250m-series-b/

#databases #data #startups #olap
January 18, 2022
Автор который всегда радует рассуждениями - это Ben Stancil с его последним текстом о прошлом и будущем OLAP кубов: "The ghosts in the data stack" [1]

Не буду всё пересказывать, общий смысл в том что концепция OLAP кубов устарела когда появились возможности быстро считать метрики поверх больших таблиц в облачных и корпоративных базах данных, а также идея в том что OLAP кубы избыточны и сложны для работы аналитика. В качестве примеров он хороших приводит сайты МВФ и ФРС в Сэнт-Луисе, а в качестве плохого примера сайт переписи США.

Как и во многих случаях хороших рассуждений, с автором есть о чём поспорить, но рассуждения его вполне справедливы. OLAP кубы и отчетопостроители на их основе зачастую построены негуманно для пользователей. Работа с ними требует дополнительных знаний и обучения, неинтуитивна и сильно зависит от природы данных на которых эти OLAP кубы построены.

Стартапы вроде Mode, который Ben Stancil представляет, как раз и создают альтернативы таким OLAP кубам. Но нельзя говорить что OLAP мертв, базы вроде Apache Druid или Clickhouse - это тоже OLAP, модернизированный, но MOLAP, ROLAP и HOLAP и тд. Впрочем в Modern data stack всё более вместо OLAP упоминают headless BI и другие BI продукты поверх хранилищ метрик.

Ссылки:
[1] https://benn.substack.com/p/ghosts-in-the-data-stack

#olap #analytics #data #reading
March 26, 2022
October 28, 2022