Ivan Begtin
8.09K subscribers
1.99K photos
3 videos
102 files
4.7K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Такое чувство что всех дата продуктами интересуется, пользуется и развивается как аналитик данных и дата инженер не обошла тема modern data stack. Я регулярно писал о том как эта концепция набирала обороты последние 2-3 года и сейчас превратилась в какой-то непрерывный хайп. Вот и автор текста Is It Time To Rebrand (or Rethink) the Modern Data Stack? [1] соучредитель стартапа Validio задаётся тем же вопросом.

Не пора переосмыслить само это понятие?

А с другой стороны интервью с основателем dbt по поводу партнерств в Modern data stack [2].

Лично я бы сказал так, что для применения в гос продуктах modern data stack пока, практически, невозможен или крайне ограничен, поскольку все танцы с бубном тут вокруг облачных хранилищ и их экосистемы.

А для стартапов и корпоративных продуктов и дата инфраструктуры это актуально, но надо делить на 10 все обещания "серебрянных пуль". И отдавать себе отчет в рисках и моделировании инфраструктуры из десятков компонентов вне своего прямого контроля.

Ссылки:
[1] https://betterprogramming.pub/is-it-time-to-rebrand-or-rethink-the-modern-data-stack-5d76366e3c95
[2] https://www.madrona.com/dbt-labs-founder-tristan-handy-on-the-modern-data-stack-partnerships-and-creating-community/

#moderndatastack #data #readings
Полезное про данные, технологии и не только։
- glidesort [1] презентация и открытый код для Rust [2] по ускоренному алгоритму сортировки данных от Orson Peters студента Phd в Database Architecture group at CWI Amsterdam. По многим оценкам может быть гораздо эффективнее на современных процессорах через использование параллельных вычислений.
- What's the Modern Data Stack? [3] очередная попытка найти ответ на вопрос что такое современный стек данных. Небесполезная для внутреннего понимания и использования продуктов по работе с данными
- 2023 State of Databases for Serverless & Edge [4] обзор сервисов для работы с СУБД без серверов, довольно большой спектр услуг и активно растущий
- Select Star Raises $15 Million in Series A Funding Led by Lightspeed Venture Partners [5] стартап Select Star получил $15M на следующий раунд, что интересно продукт у них можно сказать уже типовой, каталог метаданных/данных. Таких довольно много, но инвесторы, похоже, всё ещё видят в этом рынке потенциал
- APITable [6] очередная попытка создать продукт с открытым кодом с возможностями как у AirTable. Выглядит интересно, но надо тестировать. В области low-code продуктов именно альтернативы AirTable имеют хороший потенциал, потому что применение почти универсально.


Ссылки։
[1] https://fosdem.org/2023/schedule/event/rust_glidesort/
[2] https://github.com/orlp/glidesort
[3] https://technically.substack.com/p/whats-the-modern-data-stack
[4] https://leerob.substack.com/p/databases-serverless-edge
[5] https://www.businesswire.com/news/home/20230131005354/en/Select-Star-Raises-15-Million-in-Series-A-Funding-Led-by-Lightspeed-Venture-Partners
[6] https://github.com/apitable/apitable

#opensource #data #startups #moderndatastack
По всему миру неприятные новости по стартапы и увольнения, помимо того что теперь стало значительно сложнее найти венчурные средства, так ещё и увольнения идут не только в и бигтехе, но и в, казалось бы, очень неплохо чувствующим себя стартапам. И вот оказывается в dbt Labs увольнения [1] и это при том что год назад они привлекли $222M инвестиций и, в принципе, обладают одним из наиболее востребованных продуктов интегрированным в большую часть инфраструктуры входящей в Modern Data Stack.

Но, теперь они сокращают 15% сотрудников, а то есть дела не так хороши как хотелось бы.
Несмотря на это надо оговориться что рынок ИТ и рынок данных по прежнему остаётся рынком соискателя, а не работодателя. Сокращения уменьшают число комфортных и особенно интересных мест работы, но работы много и даже очень много.

Ссылки:
[1] https://www.getdbt.com/blog/dbt-labs-update-a-message-from-ceo-tristan-handy/
[2] https://www.crunchbase.com/organization/dbt-labs/company_financials

#itmarket #it #moderndatastack #dbt
Свежий доклад State of Data Engineering 2024 от команды LakeFS.

Подмечают три ключевых тренда:
1. Генеративный ИИ влияет на инструментарий в Modern Data Stack
2. Конкуренция дата продуктов растёт и, соответственно, моё дополнение, цена выхода на рынок с новым продуктом.
3. Открытые форматы создают закрытые заборы. В центре конфликт между Databricks и Snowflake.

Последнее утверждение спорное, скорее речь о том что есть такой конфликт на рынке, а уж каким образом и что используется при нем - не это в его основе.

Что характерно в таких обзорах State of ... так то что от 75 до 95 процентов инструментов, по разным категориям, это облачные продукты. К российским реалиям, к примеру, они не применимы. Как и ко многим особо закрытым не-российским стекам данных.

И, кстати, чтобы не забыть, составители таких State of продолжают путать открытые данные и каталоги открытых данных и корпоративные каталоги. А это очень разные продукты под очень разные задачи.

А если бы я выпускал свой State of data ... то делал бы два отдельных. Один для облака, а другой для корп оффлайна. А может быть даже и три. Ещё один для корп оффлайна открытого кода.

#datatools #opensource #stateof #dataengineering #moderndatastack #readings
DBT купили SDF

Это весьма важное событие в дата инженерии для тех кто пользуется облачной дата инфраструктурой особенно. DBT - платформа и одноимённая компания [1] по трансформации данных через декларативное описание SQL операций купили компанию (и продукт) SDF [2] который делал то же самое на их же движке, но гораздо эффективнее.

Ссылки:
[1] https://www.getdbt.com
[2] https://www.sdf.com

#datatools #moderndatastack #dbt #dataengineering