🔋 Труба данных
3.75K subscribers
312 photos
5 videos
7 files
397 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
加入频道
Кто отвечает за качество данных?

Тут твиттер (а что же еще? Мастодон? 🤪) принес интересное обсуждение. Дядя из Zendesk и Slack утверждает, что Data Producer не должен отвечать за качество данных. Какие-то базовые проверочки, а дальше пусть потребляторы отвечают за DQ.

https://twitter.com/ananthdurai/status/1627627842929401857

Лично моя позиция немного другая: те, кто данные генерируют в равной степени несут ответственность за их качество, как и те, кто эти данные забирает.

Поэтому приглашаю в комменты поделиться своим опытом: а кто у вас отвечает за качество данных? DE или вдруг есть есть отдельный департамент DQ? Есть Data contracts?

@ohmydataengineer
И еще немного про текущее состояние индустрии

Кроме блоггеров, такие срезы делают и компании. Так вот, победители в категории “Самый популярный ETL” - dbt, тоже делали срез по модным analytics engineer.
Отчет большой, много всяких графиков, и чтобы не спамить -> https://www.getdbt.com/state-of-analytics-engineering-2023/?utm_campaign=fy-2024_the-state-of-analytics-engineering_aw

Из того, за что у меня зацепился взгляд:
- Топ проблем хоть и очень очевидный, все равно стоит повторить: если не думать о качестве данных, то будет говно и нужны договоренности между теми, кто данные генерит и кто их потребляет.
- Денюжки деньжатки. Разница в базовой компенсации между Европой и США очень сильная.
- Все жалуются на тулы, совместную работу и метаданные


@ohmydataengineer
Пятничный юмор 😝

@ohmydataengineer
Больше опросов богу опросов!

Jesse Anderson (дядя, который написал вот это - Data Teams: A Unified Management Model for Successful Data-Focused Teams) каждый год тоже делает опросы дата команд и выкладывает результаты. Сам опрос по ссылке ниже в оригинале, графички в начале так себе, конечно, но если полистать ниже, то можно найти парочку интересных наблюдений, которые идут в разрез с предыдущими обзорами. Как будто, в одном отвечали миллениалы, а в другом - зумеры:

- согласно опросу, DQ далеко не проблема, а вот то, что приходится работать с бизнесом и другими командами - очень мешает. И низкое качество специалистов.
- при этом, общение с бизнесом и другими командами - лучший и самый эффективный метод прихода к успеху 🤪
- срезать дата команды или делать хайринг фриз в них почти никто не собирается.


https://www.jesse-anderson.com/2023/03/data-teams-survey-2023-results/ <— на английском.

@ohmydataengineer
Пятничный юмор 😂

@ohmydataengineer
https://smartdataconf.ru/callforpapers/

SmartData открыла CFP (Call for Papers)!
Кто хотел попробовать выступить с докладом, но боялся - самое время перестать бояться и податься.

Комитет обязательно вам поможет, и прогон устроит и вот это все.

Онлайн+Оффлайн будет осенью… в Москве!

@ohmydataengineer
https://mattturck.com/landscape/mad2023.pdf

Machine Learning, Artificial Intelligence & Data Landscape 2023

Глаза, как всегда, разбегаются.


@ohmydataengineer
Баян пятничного юмора 🤪

@ohmydataengineer
https://mlops.community/mlops-is-mostly-data-engineering

Если вы переживали, что упускаете что-то в своем развитии, потому что не читаете про ML Ops & Data Ops, могу вас успокоить. Это не так, и вот статья выше в подтверждении этого.
Если вы открыты для новых технологий, подходов, концепций, фреймворков и вот этого всего, то эти магические слова выше (как и, о боже, Platform Engineering) это всего лишь хайповые слова.
Да, там есть задачи на стыке данных, операционки и деплоя, но ничего фантастического для грамотного инженера.

@ohmydataengineer
https://docs.google.com/document/d/1ErZlwz9bbSI43dNo-rgQdkovm2h5ycuW220mWSOAuok

Бурление последних пару дней - Rust (тот самый, который должен убить всех говно-инженеров на Питухоне по заветам Хрыча) выкатил политику по использованию своего логотипа и названия и там просто кромешный адок: почти нигде нельзя использовать, чуть ли не в суд пойдут, если у тебя в названии есть Rust, при создании обучающих материалов надо первым делом говорить «Этот материал не имеет отношения к компании Rust Foundation» и все в этом духе.

Сама политика по ссылке выше, видосик описывающий весь треш - https://youtu.be/gutR_LNoZw0

История о том, как повернуться жопой к сообществу.

@ohmydataengineer
https://stkbailey.substack.com/p/good-data-engineers-are-lazy

Оч кричащий заголовок, конечно же, но внутри есть очень прекрасный набор вопросов, которые было бы неплохо задавать самим себе и своему руководителю.

Например,
> Надо ли платить за очередную тулзу по перекладыванию данных слева направо?
> А я понимаю, что происходит с моей кодовой базой? Куда она движется? Можно ли из нее что-то спокойно удалить или все поломается?
> А руководство понимает вообще, что происходит у нас с данными, как, куда и зачем?


@ohmydataengineer
https://www.youtube.com/watch?v=35JelBDhvnE

Очень крутую штуку сделали - dbt-excel. Прям теперь очень легко работать с эксельками стало.

P.S. это была шутеха на 1 апреля, но я ее пропустил. Не воспринимайте это всерьез, хотя код в репосе рабочий вроде как🤪

@ohmydataengineer
https://staysaasy.com/management/2023/03/20/numbers-to-manage-by.html

Как сказал мой бывший коллега и ментор в твиттере про эту статью, “нумерология для руководителей”.

Некоторые цифры клевые и должны быть реальностью, а вот с некоторыми я бы поспорил.
Например, вопрос для обсуждения в комментариях: если вы на первом же собесе понимаете, что человек хороший и подходит, захотите вы “остальных посмотреть” или делаем оффер сразу?

@ohmydataengineer