Кто отвечает за качество данных?
Тут твиттер (а что же еще? Мастодон? 🤪) принес интересное обсуждение. Дядя из Zendesk и Slack утверждает, что Data Producer не должен отвечать за качество данных. Какие-то базовые проверочки, а дальше пусть потребляторы отвечают за DQ.
https://twitter.com/ananthdurai/status/1627627842929401857
Лично моя позиция немного другая: те, кто данные генерируют в равной степени несут ответственность за их качество, как и те, кто эти данные забирает.
Поэтому приглашаю в комменты поделиться своим опытом: а кто у вас отвечает за качество данных? DE или вдруг есть есть отдельный департамент DQ? Есть Data contracts?
@ohmydataengineer
Тут твиттер (а что же еще? Мастодон? 🤪) принес интересное обсуждение. Дядя из Zendesk и Slack утверждает, что Data Producer не должен отвечать за качество данных. Какие-то базовые проверочки, а дальше пусть потребляторы отвечают за DQ.
https://twitter.com/ananthdurai/status/1627627842929401857
Лично моя позиция немного другая: те, кто данные генерируют в равной степени несут ответственность за их качество, как и те, кто эти данные забирает.
Поэтому приглашаю в комменты поделиться своим опытом: а кто у вас отвечает за качество данных? DE или вдруг есть есть отдельный департамент DQ? Есть Data contracts?
@ohmydataengineer
И еще немного про текущее состояние индустрии
Кроме блоггеров, такие срезы делают и компании. Так вот, победители в категории “Самый популярный ETL” - dbt, тоже делали срез по модным analytics engineer.
Отчет большой, много всяких графиков, и чтобы не спамить -> https://www.getdbt.com/state-of-analytics-engineering-2023/?utm_campaign=fy-2024_the-state-of-analytics-engineering_aw
Из того, за что у меня зацепился взгляд:
- Топ проблем хоть и очень очевидный, все равно стоит повторить: если не думать о качестве данных, то будет говно и нужны договоренности между теми, кто данные генерит и кто их потребляет.
- Денюжки деньжатки. Разница в базовой компенсации между Европой и США очень сильная.
- Все жалуются на тулы, совместную работу и метаданные
@ohmydataengineer
Кроме блоггеров, такие срезы делают и компании. Так вот, победители в категории “Самый популярный ETL” - dbt, тоже делали срез по модным analytics engineer.
Отчет большой, много всяких графиков, и чтобы не спамить -> https://www.getdbt.com/state-of-analytics-engineering-2023/?utm_campaign=fy-2024_the-state-of-analytics-engineering_aw
Из того, за что у меня зацепился взгляд:
- Топ проблем хоть и очень очевидный, все равно стоит повторить: если не думать о качестве данных, то будет говно и нужны договоренности между теми, кто данные генерит и кто их потребляет.
- Денюжки деньжатки. Разница в базовой компенсации между Европой и США очень сильная.
- Все жалуются на тулы, совместную работу и метаданные
@ohmydataengineer
https://github.blog/2023-03-23-we-updated-our-rsa-ssh-host-key/
Немножко “новостей” от GitHub 🤪
@ohmydataengineer
Немножко “новостей” от GitHub 🤪
@ohmydataengineer
The GitHub Blog
We updated our RSA SSH host key
At approximately 05:00 UTC on March 24, out of an abundance of caution, we replaced our RSA SSH host key used to secure Git operations for GitHub.com.
Больше опросов богу опросов!
Jesse Anderson (дядя, который написал вот это - Data Teams: A Unified Management Model for Successful Data-Focused Teams) каждый год тоже делает опросы дата команд и выкладывает результаты. Сам опрос по ссылке ниже в оригинале, графички в начале так себе, конечно, но если полистать ниже, то можно найти парочку интересных наблюдений, которые идут в разрез с предыдущими обзорами. Как будто, в одном отвечали миллениалы, а в другом - зумеры:
- согласно опросу, DQ далеко не проблема, а вот то, что приходится работать с бизнесом и другими командами - очень мешает. И низкое качество специалистов.
- при этом, общение с бизнесом и другими командами - лучший и самый эффективный метод прихода к успеху 🤪
- срезать дата команды или делать хайринг фриз в них почти никто не собирается.
https://www.jesse-anderson.com/2023/03/data-teams-survey-2023-results/ <— на английском.
@ohmydataengineer
Jesse Anderson (дядя, который написал вот это - Data Teams: A Unified Management Model for Successful Data-Focused Teams) каждый год тоже делает опросы дата команд и выкладывает результаты. Сам опрос по ссылке ниже в оригинале, графички в начале так себе, конечно, но если полистать ниже, то можно найти парочку интересных наблюдений, которые идут в разрез с предыдущими обзорами. Как будто, в одном отвечали миллениалы, а в другом - зумеры:
- согласно опросу, DQ далеко не проблема, а вот то, что приходится работать с бизнесом и другими командами - очень мешает. И низкое качество специалистов.
- при этом, общение с бизнесом и другими командами - лучший и самый эффективный метод прихода к успеху 🤪
- срезать дата команды или делать хайринг фриз в них почти никто не собирается.
https://www.jesse-anderson.com/2023/03/data-teams-survey-2023-results/ <— на английском.
@ohmydataengineer
https://smartdataconf.ru/callforpapers/
SmartData открыла CFP (Call for Papers)!
Кто хотел попробовать выступить с докладом, но боялся - самое время перестать бояться и податься.
Комитет обязательно вам поможет, и прогон устроит и вот это все.
Онлайн+Оффлайн будет осенью… в Москве!
@ohmydataengineer
SmartData открыла CFP (Call for Papers)!
Кто хотел попробовать выступить с докладом, но боялся - самое время перестать бояться и податься.
Комитет обязательно вам поможет, и прогон устроит и вот это все.
Онлайн+Оффлайн будет осенью… в Москве!
@ohmydataengineer
SmartData 2025. Конференция по инженерии данных
SmartData 2025 | Подача заявки на доклад | Конференция по инженерии данных
Всё о том, как стать спикером SmartData 2025: как подать заявку, как выбрать тему, какие доклады подойдут, как выглядит процесс рассмотрения
https://mattturck.com/landscape/mad2023.pdf
Machine Learning, Artificial Intelligence & Data Landscape 2023
Глаза, как всегда, разбегаются.
@ohmydataengineer
Machine Learning, Artificial Intelligence & Data Landscape 2023
Глаза, как всегда, разбегаются.
@ohmydataengineer
https://mlops.community/mlops-is-mostly-data-engineering
Если вы переживали, что упускаете что-то в своем развитии, потому что не читаете про ML Ops & Data Ops, могу вас успокоить. Это не так, и вот статья выше в подтверждении этого.
Если вы открыты для новых технологий, подходов, концепций, фреймворков и вот этого всего, то эти магические слова выше (как и, о боже, Platform Engineering) это всего лишь хайповые слова.
Да, там есть задачи на стыке данных, операционки и деплоя, но ничего фантастического для грамотного инженера.
@ohmydataengineer
Если вы переживали, что упускаете что-то в своем развитии, потому что не читаете про ML Ops & Data Ops, могу вас успокоить. Это не так, и вот статья выше в подтверждении этого.
Если вы открыты для новых технологий, подходов, концепций, фреймворков и вот этого всего, то эти магические слова выше (как и, о боже, Platform Engineering) это всего лишь хайповые слова.
Да, там есть задачи на стыке данных, операционки и деплоя, но ничего фантастического для грамотного инженера.
@ohmydataengineer
MLOps Community
MLOps is 98% Data Engineering. - MLOps Community
MLOps emerged as a new category of tools for managing data infrastructure, specifically for ML use cases with the main assumption being that ML has unique needs. After a few years and with the hype gone, it has become apparent that MLOps overlap more with…
https://docs.google.com/document/d/1ErZlwz9bbSI43dNo-rgQdkovm2h5ycuW220mWSOAuok
Бурление последних пару дней - Rust (тот самый, который должен убить всех говно-инженеров на Питухоне по заветам Хрыча) выкатил политику по использованию своего логотипа и названия и там просто кромешный адок: почти нигде нельзя использовать, чуть ли не в суд пойдут, если у тебя в названии есть Rust, при создании обучающих материалов надо первым делом говорить «Этот материал не имеет отношения к компании Rust Foundation» и все в этом духе.
Сама политика по ссылке выше, видосик описывающий весь треш - https://youtu.be/gutR_LNoZw0
История о том, как повернуться жопой к сообществу.
@ohmydataengineer
Бурление последних пару дней - Rust (тот самый, который должен убить всех говно-инженеров на Питухоне по заветам Хрыча) выкатил политику по использованию своего логотипа и названия и там просто кромешный адок: почти нигде нельзя использовать, чуть ли не в суд пойдут, если у тебя в названии есть Rust, при создании обучающих материалов надо первым делом говорить «Этот материал не имеет отношения к компании Rust Foundation» и все в этом духе.
Сама политика по ссылке выше, видосик описывающий весь треш - https://youtu.be/gutR_LNoZw0
История о том, как повернуться жопой к сообществу.
@ohmydataengineer
https://stkbailey.substack.com/p/good-data-engineers-are-lazy
Оч кричащий заголовок, конечно же, но внутри есть очень прекрасный набор вопросов, которые было бы неплохо задавать самим себе и своему руководителю.
Например,
> Надо ли платить за очередную тулзу по перекладыванию данных слева направо?
> А я понимаю, что происходит с моей кодовой базой? Куда она движется? Можно ли из нее что-то спокойно удалить или все поломается?
> А руководство понимает вообще, что происходит у нас с данными, как, куда и зачем?
@ohmydataengineer
Оч кричащий заголовок, конечно же, но внутри есть очень прекрасный набор вопросов, которые было бы неплохо задавать самим себе и своему руководителю.
Например,
> Надо ли платить за очередную тулзу по перекладыванию данных слева направо?
> А я понимаю, что происходит с моей кодовой базой? Куда она движется? Можно ли из нее что-то спокойно удалить или все поломается?
> А руководство понимает вообще, что происходит у нас с данными, как, куда и зачем?
@ohmydataengineer
Data People Etc.
Good data engineers are lazy
Airflow's neighborhood must be razed
https://www.youtube.com/watch?v=35JelBDhvnE
Очень крутую штуку сделали - dbt-excel. Прям теперь очень легко работать с эксельками стало.
P.S. это была шутеха на 1 апреля, но я ее пропустил. Не воспринимайте это всерьез, хотя код в репосе рабочий вроде как🤪
@ohmydataengineer
Очень крутую штуку сделали - dbt-excel. Прям теперь очень легко работать с эксельками стало.
P.S. это была шутеха на 1 апреля, но я ее пропустил. Не воспринимайте это всерьез, хотя код в репосе рабочий вроде как🤪
@ohmydataengineer
YouTube
dbt-excel, the revolutionary dbt adapter that turns spreadsheets into data warehouses
Welcome to dbt-excel, the revolutionary dbt adapter that combines the rigor of dbt with the flexibility and familiarity of Excel. Get ready to change the way you look at data analytics forever.
The adapter is available to everyone; simply pip install dbt…
The adapter is available to everyone; simply pip install dbt…
https://staysaasy.com/management/2023/03/20/numbers-to-manage-by.html
Как сказал мой бывший коллега и ментор в твиттере про эту статью, “нумерология для руководителей”.
Некоторые цифры клевые и должны быть реальностью, а вот с некоторыми я бы поспорил.
Например, вопрос для обсуждения в комментариях: если вы на первом же собесе понимаете, что человек хороший и подходит, захотите вы “остальных посмотреть” или делаем оффер сразу?
@ohmydataengineer
Как сказал мой бывший коллега и ментор в твиттере про эту статью, “нумерология для руководителей”.
Некоторые цифры клевые и должны быть реальностью, а вот с некоторыми я бы поспорил.
Например, вопрос для обсуждения в комментариях: если вы на первом же собесе понимаете, что человек хороший и подходит, захотите вы “остальных посмотреть” или делаем оффер сразу?
@ohmydataengineer
Stay SaaSy
Numbers To Know For Managing (Software Teams)
Learning how to manage is a long race - it takes many years and each lap offers new learnings. Along the way, anchors emerge that can help orient a manager when a number of other variables are in flux.
Below we offer a number of these anchors. They are based…
Below we offer a number of these anchors. They are based…