Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
В рубрике полезных инструментов работы с данными CSVFiddle [1] сервис по разбору CSV файлов из проекта DucksDb. Он построен на базе DucksDB-Wasm [2] для аналитики прямо в браузере и использует функцию read_csv_auto [3] полезную фичу DucksDb по разбору CSV файлов практически любого типа. Что особенно актуально для разбора CSV файлов экспортированных из Excel когда до колонок с данными есть всякие другие записи. Довольно частая ситуация.

CSVFiddle умеет разбирать такие данные и позволяет прямо в браузере работать с ними с помощью SQL запросов.

Я, кстати, кажется ничего не писал про DuckDB [4], а это такая весьма интересная OLAP СУБД как замена SQLite для аналитической работы. Задач для применения масса, а ещё умеет импортировать Parquet файлы.

Делает его команда исследователей из Centrum Wiskunde & Informatica в Амстердаме, год назад они создали DuckDb Labs [5], коммерческую компанию. Меня удивляет что они до сих пор не привлекли никакого венчурного финансирования, впрочем, может ещё привлекут.

Ссылки:
[1] https://csvfiddle.io
[2] https://duckdb.org/2021/10/29/duckdb-wasm.html
[3] https://duckdb.org/docs/data/csv#read_csv_auto-function
[4] https://duckdb.org/
[5] https://duckdblabs.com/news/spin-off-company-DuckDB-Labs/

#opensource #datatools #csv #dbms
July 2, 2022
Команда Clickhouse выложила ClickBench [1] методологию, инструмент и результаты сравнения аналитических баз данных. Сравнивают много что: Aurora, Athena, Clickhouse, MySQL, Druid, Greenplum и тд. Около 30 разных продуктов в разных конфигурациях.

Что особенно хорошо - методология и реализация с открытым кодом [2] При этом по թ-м из 4-х метрик Clickhouse лидирует: Hot Run и Storage Size, по остальным находит в лидерах, уступая Snowflake по Cold Run и Athena по Load Time. Ценно также в отображении проблем которые возникают у многих движков в работе с большим объёмом данных.

Для тех кто выбирает инструмент для построения аналитического продукта это сравнение будет весьма полезным.

Но, всегда важно помнить ограничения, несмотря на хорошую проработку бенчмарка, странно не увидеть в нём прямых конкурентов Clickhouse вроде Starrocks, которые ещё недавно писали что превосходят Clickhouse по производительности [3].

Ссылки:
[1] https://benchmark.clickhouse.com/
[2] https://github.com/ClickHouse/ClickBench/
[3] https://starrocks.com/blog/benchmark-test

#datatools #dbms #data #benchmarks #clickhouse
July 15, 2022
В рубрике интересных стартапов в рынке данных компания Dgraph [1] создатели одноимённой графовой NoSQL системы управления базами данных с открытым кодом. Буквально только что они подняли раунд инвестиций на $6M [2] под их продукт Dgraph Cloud.

Фаундеры обещают обновить команду проекта, уже наняли нового CTO [3] и новый релиз этим летом.

В основе Dgraph собственной движок СУБД с родной поддержкой GraphQL и языком запросов DQL (Dgraph query language) на основе всё того же GraphQL и расширяющий его возможности.

В сравнениях они приводят другие NoSQL продукты, например, Neo4J и MongoDB [4], в свою пользу, конечно.

Я бы сказал так, GraphQL - это интересная концепция, язык запросов и альтернатива SQL, но "серебряной пулей" не является до сих пор.

Из достоинств Dgraph - это зрелость как продукта с открытым кодом и, на удивление, хорошо и подробно написанная документация.

Сама бизнес модель уже привычная. Берем зрелый продукт с открытым кодом и делаем облачный сервис. Причем они продают не собственное облако, а обслуживание dedicated servers на облаках других провайдеров.

Ссылки:
[1] https://dgraph.io
[2] https://dgraph.io/blog/post/funding-20220720/
[3] https://discuss.dgraph.io/t/new-funding-announcement/17377
[4] https://dgraph.io/comparison/

#opensource #clouds #nosql #dbms #data #datatools
July 24, 2022
July 26, 2022
Системы управления базами данных о которых, либо уже не помнят, либо ещё не знают, те что совсем не на слуху:
- BaseX [1] СУБД для XML документов с поддержкой языка запросов XQuery 3.1. Используется в ряде унаследованных систем которые строились вокруг XML
- eXist-db [2] также XML база данных с поддержкой XQuery как языка запросов. Возможно более популярная чем BaseX, но, в целом, также в основном в унаследованных системах.
- Metakit [3] популярная когда-то в корпоративных приложениях внедряемая база данных. Имела свой упрощённый язык запросов, очень была похожа на прообраз документальных баз данных, хотя и тогда там были только плоские таблицы. Перестало развиваться примерно 15 лет назад.
- Datomic [4] достаточно давняя проприетарная, более 10 лет, СУБД с поддержкой запросов с помощью языка Datalog. Теперь существует только в виде облачного и дорого on-prem продукта. Тут ещё можно вспомнить что автор продукта Rich Hickey, создатель языка Clojure
- TerminusDb [5] относительно новая графовая СУБД с поддержкой RDF и использующая внутри WOQL (web object query language) язык запросов основанный на Datalog. Лично я так и не понял есть у этой СУБД какие-либо реальные ключевые фичи из-за которых хотелось бы хотя бы протестировать, но ничего такого не нашёл. Хотя клиенты у них есть, в академической среде кое-где её используют.р
- ArcadeDB [6] сравнительно новая NoSQL база данных созданная автором OrientDB после его увольнения из SAP. Изначально Native Graph Database, но также реализуют MongoDB совместимый интерфейс и, в целом, 5 языков запросов: MongoDB, Cyther, GraphQL, Gremlin, SQL. Хороший кандидат на замену MongoDB если пройдет тесты на производительность

Ссылки:
[1] https://basex.org
[2] http://www.exist-db.org
[3] https://www.equi4.com/metakit/
[4] https://www.datomic.com/
[5] https://terminusdb.com/products/terminusdb/
[6] https://arcadedb.com/

#datatools #dbms #data
July 29, 2022
August 4, 2022
August 14, 2022
August 16, 2022
Команда Clickhouse, создателей одной из лучших аналитических СУБД, запустили бета версию облачной версии продукта [1]. Сейчас облако работает с поминутной тарификацией на базе инфраструктуры AWS․ Главное достоинство в том что продукт непосредственно от команды разработчиков Clickhouse, а значит можно надеяться на лучшую производительность и техническую поддержку.

При том что кластеры на Clickhouse существуют уже много где. Например, в Яндекс облаке [2] с ежесуточной и ежемесячной тарификацией и в самом AWS [3].

Clickhouse не единственная СУБД для аналитики в реальном времени на базе которой создаются DBAAS (database-as-a-service) продукты. Например, команда их менее популярного, но близкого по производительности, конкурента StarRocks анонсировали появление их облака в 3-м квартале 2022 г. [4]. 3-й квартал вот только что прошёл, ждём когда же можно будет увидеть обещанное.

А я напомню интересную штуку от Clickhouse по открытым замерам производительности баз данных [5] с весьма неплохим их сравнением.

Ссылки:
[1] https://clickhouse.com/blog/clickhouse-cloud-public-beta
[2] https://cloud.yandex.com/en/services/managed-clickhouse
[3] https://aws.amazon.com/ru/quickstart/architecture/clickhouse-cluster/
[4] https://starrocks.io/blog/starrocks-launches-the-industrys-fastest-cloud-native-real-time-analytics-engine
[5] https://benchmark.clickhouse.com

#opensource #startups #dbms #clickhouse
October 5, 2022
October 28, 2022