🔋 Труба данных
3.71K subscribers
298 photos
5 videos
7 files
377 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
加入频道
Возвращение легендарной рубрики на телеканале @ohmydataengineer!

"Пусть данные говорят сами за себя!"
https://arch.dev/blog/2025-the-dawn-of-the-ai-data-team/

Бла-бла-бла, AI всех заменит, подходы меняются, меняйся или умри.
Пожалуйста, не поддавайтесь этой истерике, в самой статье ж прям написано: The Foundation Remains Critical
Ничего ульра-прорывного именно в data engineering с появлением AI пока не произошло, вы ничего не пропустили.

Copilot и другие умные автокомплиты - это да. Вот это стоит взять на вооружение.

@ohmydataengineer - канал "🕯Труба Данных" на страже хайпожорства!
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.jetbrains.com/lp/devecosystem-2024/

Ежегодный очень большой отчет/исследования про языки программирования от JetBrains.
Все как обычно - TypeScript подъедает JavaScript, Rust все также всеми очень любим и все хотят на него переехать.
В базах данных правда нет разделения на OLAP / OLTP, поэтому самый популярный - MySQL, а у того же Snowflake или Clickhouse по 3% всего
AWS в 3 раза больше ближайшего конкурента, который оказывается Azure, а не GCP.
Почти 50% (или всего лишь 50%, не знаю как отреагировать) пользуются регулярно каким-то AI в разработке (Copilot, ChatGPT).



@ohmydataengineer - канал "🕯Труба Данных" это больше чем просто канал про данные!
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.getdbt.com/blog/dbt-labs-acquires-sdf-labs

dbt купили себе какой-то sdf.
Впервые слышу про эту штуку и так сразу и не скажу, что она делает. Но в англоязычном интернете все очень рады, говорят, что dbt будет работать "в 10 раз быстрей". Чему там правда работать быстрей, если основную нагрузку выполняет база.... Ну да ладно, мб я тупой.

@ohmydataengineer - канал "🕯Труба Данных" который не в курсе что такое SDF!
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.qlik.com/us/news/company/press-room/press-releases/qlik-acquires-upsolver-to-deliver-low-latency-ingestion-and-optimization-for-apache-iceberg

Новость один в один как предыдущая

Qlik купил Upsolver.
Шо, кто, зачем, как....

Вот иногда читаешь новости, и даже не понял, что произошло.

@ohmydataengineer - канал "🕯Труба Данных" который все еще не в курсе всех новостей!
Please open Telegram to view this post
VIEW IN TELEGRAM
Пятничный юмор или модные словечки!

@ohmydataengineer
https://howqueryengineswork.com

Оч приятное и комфортное чтиво про то, как работают query engine (ну то есть вот та фигня, которая планирует и исполняет ваш запрос к базенке).
Описано все в общих словах, но достаточно детально.


@ohmydataengineer - канал "🕯Труба Данных" предлагает вам написать свой движок запросов!
Please open Telegram to view this post
VIEW IN TELEGRAM
2.10 Reparse button

Когда не надо лишних слов.
https://github.com/databrickslabs/dqx

Databricks выложили в опенсорс DQX - фреймворк для DQ поверх pyspark датафреймов.
Больше фреймворков богу фреймворков.

Даже мотивация для этого фреймворка какая-то хлюпкая
Current data quality frameworks often fall short in providing detailed explanations for specific row or column data quality issues and are primarily designed for complete datasets, making integration into streaming workloads difficult.


@ohmydataengineer - канал "🕯Труба Данных" не верит в очередной фреймворк
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.answer.ai/posts/2025-01-08-devin.html

Помните, какое-то время назад, в интернете появился Devin, AI программист, который должен был нас всех заменить? Тогда в демо этого AI Agent компания показывала, что он от и до смог решить какую-то задачу с Upwork без какого-либо вмешательства.

Так вот пока это все пустые обещания, все очень так себе.

@ohmydataengineer - канал "🕯Труба Данных" говорит что нас заменят, но не скоро
Please open Telegram to view this post
VIEW IN TELEGRAM
Рекрутеры используют AI, чтобы отсеивать нерелевантные отклики.

А можно просто фильтровать по словам и сразу всех "автоматизаторов откликов" выявить 😂

@ohmydataengineer - канал "🕯Труба Данных" и пятничный юмор!
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.astronomer.io/ebooks/apache-airflow-best-practices-etl-elt-pipelines/

Астрономер (главный контрибьютор Airflow) раздает книжку по best practices в Airflow. Ничего сверхестественного, но кажется вполне себе годным чтивом, обновить знания.

@ohmydataengineer - канал "🕯Труба Данных" любит Airflow, как бы его не хейтили
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.warpstream.com

Warpstream
Кстати, забыл рассказать, что я наткнулся на прикольный продукт от Confluent: Kafka, только вместо памяти на машинах - датка лежит в бакетах.
Да, скорость будет поменьше, но и ценник сильно меньше 😏

@ohmydataengineer - канал "🕯Труба Данных" радуется прикольным незнакомым инструментам!
Please open Telegram to view this post
VIEW IN TELEGRAM
https://medium.com/strava-engineering/rain-a-key-value-store-for-stravas-scale-7f580f5b4848

У меня love / hate relationships с бегом: когда-то я его любил, бегал марафоны, потом ненавидел, потом снова любил, потом снова ненавидел, ну вы поняли =)
И каждый раз я продолжал загружать свои пробежки в Strava.

Наткнулся тут на их инженерный блог и прикольную статью о том, что они там изобрели в качестве хранилищ для определенного типа данных и вообще как там у них устроено.

@ohmydataengineer - канал "🕯Труба Данных" про технологии в продуктах, которыми пользуемся ежедневно!
Please open Telegram to view this post
VIEW IN TELEGRAM
https://clickhouse.com/blog/json-bench-clickhouse-vs-mongodb-elasticsearch-duckdb-postgresql

Вы будете кидать 💩, но я опять про Clickhouse
Огромная статья с технической мяготкой про 1 Billion JSON Challenge и насколько новый нативный тип JSON в клике работает быстрей и эффективней по памяти и стораджу по сравнению с другими базами данных.


@ohmydataengineer - канал "🕯Труба Данных" в очередной раз про одно и то же!
Please open Telegram to view this post
VIEW IN TELEGRAM
Нам тут обещают, что скоро AI agents нас всех заменят.

Так вроде бы уже такие системы работают....

@ohmydataengineer - канал "🕯Труба Данных" и пятничный юмор!
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.gable.ai/data-contracts-book

ГигаЧад и O'Reilly выкатывают в открытый доступ (правда надо оставить емейл) первую версию книжки про дата контракты.
Как по мне, хайп на эту штуку прошел и чет даже не сильно зудит это применять. Но, возможно, вы что-то подчерпнете для себя!

@ohmydataengineer - канал "🕯Труба Данных" в сомнения про дата контракты
Please open Telegram to view this post
VIEW IN TELEGRAM
https://vutr.substack.com/p/8-minutes-to-understand-presto

Большая пояснительная статья про работу Presto (ну и в целом Trino работает похожим образом). Все еще сильно советую подписаться на этого парня, он хорошие статьи пишет

@ohmydataengineer - канал "🕯Труба Данных", который ничего умного в этот раз не придумал.
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.latent.space/p/2025-papers

Если вы угораете по white-papers и хорошим техническим статьям и публикациям (а не постам в блогах), вот отличный список из 50 статей пол AI Engineering.
Читать не перечитать!

@ohmydataengineer - канал "🕯Труба Данных" набрал себе чтива на недели вперед!
Please open Telegram to view this post
VIEW IN TELEGRAM
@ohmydataengineer - канал "🕯Труба Данных" и пятничный юмор!
Please open Telegram to view this post
VIEW IN TELEGRAM