Ivan Begtin
9.25K subscribers
2.05K photos
3 videos
102 files
4.79K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
加入频道
На CockroachDB [1], движок баз данных с открытым кодом с гео-масштабированием, работой в облаке и с SQL, развиваемый стартапом CockroachLabs [2], его создатели получили $86,6 миллионов финансирования от венчурных фондов [3], что в совокупности даёт $195 миллионов с 2015 года.

По сути, CockroachDB - это PostgreSQL на стероидах. В сравнении на ObjectRocket [4] довольно хорошо перечислены их отличительные особенности и возможности. Все они связаны с репликацией, геомасштабированием и многокластерностью. Важные задачи для любых геораспределённых сервисов и не так критичные для геостационарных, локальных сервисов.

Исходя из их позиционирования можно предполагать что они стали реально востребованным продуктом для крупных цифровых игроков, делающих сервисы и приложения на весь мир.

Ссылки:
[1] https://github.com/cockroachdb/cockroach
[2] https://www.cockroachlabs.com/
[3] https://www.zdnet.com/article/a-gmail-for-databases-cockroachdb-aims-for-the-top-stocks-up-with-86-6m-new-funding/
[4] https://www.objectrocket.com/blog/cockroachdb/how-to-choose-between-postgresql-and-cockroachdb/

#data #databases
May 6, 2020
У Clickhouse [1], несомненно одной из лучших OLAP баз данных приспособленных для аналитики, появился довольно интересный конкурент StarRocks [2]. СУБД совместимая с MySQL по синтаксису и протоколу, основанная на Apache Doris [3], когда-то известной под именем Palo и переданная в проект Apache компанией Baidu. Команда StarRocks пишут что взяли код Apache Doris в начале 2020 года и основательно его переписали и дополнили так что теперь только 40% кода идентично оригинальному проекту.

У StarRocks много многообещающих функций, например, query federation для прямого доступа к данным в MySQL или ElasticSearch без импорта данных, а также высокая производительность всех запросов.

У них в блоге большой обзор сравнения с Clickhouse при миграции баз данных в Trips.com [4], главные аргументы перехода там в том что StarRocks обеспечивает более быстрое выполнение запросов и то что у Clickhouse усечённый SQL диалект. Поэтому по всем параметрам на StarRocks стоит обратить внимание, особенно когда текущий стек данных основан на MySQL.

Правда, здесь важно помнить что Clickhouse в конце 2021 года привлек финансирование в 250 миллионов долларов США [5] и активно развивается. С точки зрения зрелости продукта, он конечно гораздо более пригоден для промышленной эксплуатации.

Ссылки:
[1] https://clickhouse.com
[2] https://www.starrocks.com
[3] https://doris.apache.org
[4] https://starrocks.medium.com/trip-com-starrocks-efficiently-supports-high-concurrent-queries-dramatically-reduces-labor-and-1e1921dd6bf8
[5] https://clickhouse.com/blog/en/2021/clickhouse-raises-250m-series-b/

#databases #data #startups #olap
January 18, 2022
В рубрике интересных инструментов работы с данными NocoDb [1], open source #nocode платформа по работе с данными в форме таблиц. Фактический аналог Airtable, только с открытым кодом [2]. Собственно открытость кода это и есть главное достоинство, потому что Airtable это уже довольно продвинутый продукт, SaaS аналог MS Access. Но у Airtable есть множество ограничений, например, в максимальный размер таблицы в 50 тысяч записей, в далеко не идеальном API и, самое главное, конечно в том что приходится держать свои данные в облачном сервисе. В то же время Airtable стремительно создали вокруг себя экосистему и сейчас с ними интегрированы и на них основаны многие продукты.

К примеру, каталог каталогов данных datacatalogs.ru Инфокультуры собран в Airtable, а интерфейс над ним построен с помощью стартапа Softr.

Так вот NocoDB может быть разумной альтернативой тем чьи данные точно не могут быть открытыми, а гибкость управления данными нужна.

Альтернативно существуют такие проекты как:
- Rowy [3] - давно не обновлялся, но вроде живой
- Baserow [4] - воспроизводит Airtable почти один в один и также существует в облаке [5]

А также частично функции аналогичные Airtable могут выполнять продукты класса Headless CMS такие как Strapi [6] где также можно настраивать концепты/объекты и предоставлять их через API. Но с ограничениями что headless CMS не про табличное редактирование данных, а только про гибкие интерфейсы их внесения.

Ссылки:
[1] https://nocodb.com
[2] https://github.com/nocodb/nocodb
[3] https://github.com/rowyio/rowy
[4] https://gitlab.com/bramw/baserow
[5] https://baserow.io
[6] https://strapi.io

#opensource #databases #data #airtable
January 25, 2022
Весьма интересный обзор Welcome to the New Database Era [1] от Ethan Batraski из Ventrock о том как постепенно, но верно облачные базы данных выходят в мэйнстрим и про стартапы вроде Hasura, Xata, Ottertune, Polyscale и др.

Взгляд автора особенно интересен как взгляд венчурного капиталиста на рынок баз данных и про основные развития этого рынка.

Например, о том что команды работающие с данными просто хотят чтобы у них была рабочая инфраструктура, а не нанимать DevOps или DBA и других или о том что всё большую актуальность приобретает HTAP или о том машинное обучение не используется практически для оптимизации баз данных (это важная идея, кстати) и о том что нет хороших промышленных примеров прорывов в индексировании данных.

По мне так текст просто наполнен инсайтами и идеями, хотя и для некоторых из них нужно большее погружение в рынок баз данных и сервисов на их основе.

Ссылки:
[1] https://ethanjb.medium.com/welcome-to-the-new-database-era-f4f8c8c407e1

#databases #opensource #data
June 20, 2022
Мало кто думает об архивации чего-бы то ни было как потеряв какие-то очень важные данные или файлы. Личное осознание значимости бэкапов - это часто последствия личного же травматического опыта.

Практические механизмы применяемые в корпоративной среде - это, чаще всего, разного рода инструменты входящие в состав операционной системы. А для СУБД - это чаще генерация дампов баз данных специфичных для конкретной СУБД.

Когда речь заходит об архивации на системном уровне то возникает вопрос стандартов и универсальных спецификаций. А их и то оказывается не так много. У библиотеки Конгресса США есть коллекция форматов рассматриваемых для архивации табличных данных/баз данных [1]․

Почти все они - это форматы обмена данными, такие как XML, JSON, CSV, HDF, CDF, XLS и тд. Рекомендуемыми форматами для данных при этом являются CSV/TSV и SQLite [2].

А вот в Швейцарии разработали и приняли ещё в 2013 году стандарт SIARD, его описание также есть в библиотеке Конгресса [3]. Этот стандарт описывает унифицированный экспорт баз данных не только с точки зрения данных, но и всех связанных объектов, понятий, артефактов и метаданных. Стандарт не самый древний, но ограниченный с самого начала такими СУБД как Oracle, Microsoft SQL Server, MySQL, IBM DB2, Microsoft Access. Тут не то что NoSQL нет, но и нет поддержки облачных СУБД, нет многих популярных баз данных и не только. А сам стандарт с 2015 года практически не развивался.

Что характерно, других универсальных стандартов экспорта/импорта СУБД не существует. Что иногда кажется странным, поскольку в ИТ очень любят разрабатывать собственные спецификации. Например, в Modern Data Stack уже есть множество стандартов описания метаданных в СУБД таких как OpenMetadata [4] и OpenLineage [5] которые довольно сильно пересекаются с SIARD в части метаданных описывающих данные, но не заходят в область непосредственно сохранения контента.

Вопрос о том как сохранять унаследованные данные после закрытия проектов по прежнему открытый. Всё что я могу вспомнить даже в довольно крупных организациях - это положенные на сетевое хранилище дампы с кратким описанием содержания.

Ссылки:
[1] https://www.loc.gov/preservation/digital/formats/fdd/dataset_fdd.shtml
[2] https://www.loc.gov/preservation/resources/rfs/data.html
[3] https://www.loc.gov/preservation/digital/formats/fdd/fdd000426.shtml
[4] https://docs.open-metadata.org/metadata-standard/schemas
[5] https://github.com/OpenLineage/OpenLineage

#databases #digitalpreservation
June 24, 2022
August 13, 2022
April 27, 2023
May 31, 2023
November 29, 2023
Казалось бы небольшая, но весьма интересная новость о том что проект chDB присоединяется к Clickhouse [1].

chDB [2] - это внедряемая OLAP база на движке Clickhouse, фактически прямой конкурент DuckDb и, как и DuckDb, замена Sqlite.

Казалось бы, ну что тут такого, а вот DuckDb сейчас одно и наиболее заметных явлений в дата-мире и внедряемая база это очень удобная штука. Многие датасеты может оказаться что удобнее распространять в виде такой базы данных, благо что она с открытым кодом.

И вот chDB это такое же как DuckDb по логике, но движок Clickhouse может быть поинтереснее. В треде на ycombinator [3] есть интересные ссылки на эту тему, например, сравнение clickhouse-local и DuckDb [4] и clickhouse-local там был особенно крут на больших объёмах данных. Можно предположить что автор chDb переходит в clickhouse прокачать chDB также как сейчас прокачано DuckDb.

В общем и целом новость оптимистичная, больше embedded баз данных разных и полезных.

Ссылки:
[1] https://auxten.com/chdb-is-joining-clickhouse/
[2] https://www.chdb.io/
[3] https://news.ycombinator.com/item?id=37985005
[4] https://www.vantage.sh/blog/clickhouse-local-vs-duckdb

#data #opensource #databases #datatools
March 11, 2024