🔋 Труба данных
3.71K subscribers
298 photos
5 videos
7 files
377 links
Авторский канал обо всем, что происходит в мире работы с данными: хранение, обработка, визуализация, как мы принимаем решения и как мы становимся профессионалами в работе с данными.

Автора канала - @SimonOsipov
加入频道
Пятничный юмор 😜

@ohmydataengineer
https://dropbox.tech/infrastructure/balancing-quality-and-coverage-with-our-data-validation-framework

Любимая шутка в @datajobs это “Ходуб умер”. Вот история от Dropbox, который использует Hadoop в своей аналитике, про что у них происходит в рамках качества данных.
Как обычно, мои мысли после прочтения:

>In the past, different teams at Dropbox had different approaches to validating data, with different standards and different pipelines.
>Dropbox created a dedicated data engineering team to oversee the validation of data in our data lake and to try and catch these problems before they occurred.
Помните шутку про 14 стандартов? Кажется, такая же ситуация. Я считаю, что те, кто данные генерирует, должен быть ответственен за качество генерируемых данных, а не создавать отдельную команду для Data Quality (модная тенденция в энтерпрайзах, появление выделенных Data Stewards, которых, фактически, заставляют быть QA в мире данных, писать тесты, вот это все…)

>When we couldn’t find anything that quite met our needs, we decided to build a solution from scratch
Ребята пишут “Смотрели Great Expectations и dbt, но там для комплексной логики пришлось бы писать SQL”. Поэтому мы решили написать полностью свое! Хороший пример карго-культа. Для любой сложной логики всегда придется что-то допиливать руками, вне зависимости от инструмента. Зачем тогда еще тратить время для создания и поддержки своего собственного тула?

>Our data engineers had experience in SQL, Java, Scala, SchemaPLT, Python, and C, among others, and each had pros and cons. But after much discussion, we chose SQL.
ААААААААААААА. Вы только что выше писали что вам не хочется писать SQL для дополнительной логики!


Справедливости ради, есть одна здравая мысль: последовательность проверок. Очень часто видел ситуацию, когда мы сначала все данные загрузим в прод, потом выполним проверки, и если все хреново - уведомляем пользователей. Тут же, проверки идут поверх стейджа, поэтому в прод говяные данные не попадают.


@ohmydataengineer
Картинка из рассылки The Pragmatic Engineer (платная).

В этом выпуске разбиралась недавняя новость: Цукерберг объявил что “Год эффективности” и что надо-бы немножко структуру схлопнуть, предложив middle management вернуться к IC (individual contributer).

Цитата звучит примерно так: “Meta managers and directors targeted in the initiative will be told to transition to an “individual contributor” role at the company — such as coding, design or research — or exit altogether”.

Хотя… когда у тебя столько директоров и VP, так еще и друг над другом. Хотел побухтеть, но на деле выводы делать вам самим =)

@ohmydataengineer
Сегодня хочу задать вопрос аудитории. Звучит он примерно следующим образом:

Нужны ли вам анонсы митапов / конференций / вебинаров / воркшопов?

С заядлой периодичностью в личку приходят просьбы прорекламировать за деньги что-либо из выше перечисленного. Чаще всего мой ответ такой: “Если мне понравятся темы - я размещу это бесплатно”. Но я понимаю, что то, что может показаться мне не очень релевантным, может быть инетерсно вам. Тем более, что по ощущениям, мы уже вышли за рамки “только дата-инженеры энтузиасты”.
И если вы заметили, я никогда не делал анонсов шаблонным текстом, всегда это было что-то личное и от себя. Но я не всегда могу написать личное и от себя, если меня тема не зажигает. Но вас может заинтересовать. А я тут сфальшивил…. Ну вы поняли суки мовести муки совести…

Поэтому из этой ситуации есть несколько выходов:
- поставь 🔥 если считаешь, что размещать рекламные анонсы с шаблонным текстом будет ок для тебя и полезно (все такие посты будут помечены отдельно). Можем даже придумать, куда отправлять деньги с таких рекламных постов, благотворительность, приюты, фонды, вот это все. Готов прям отчитываться в комментах за каждый такой пост. Можем даже вместе цену таких постов назначить, например, 10 000 рублей.
- поставь ❤️ если считаешь, что нужно продолжать текущую практику “Размещай только то, что считаешь релевантным и бесплатно”
- поставь 💩 если считаешь, что вообще размещать анонсы митапов и всего остального не надо. Ибо вам хватает каналов @DE_events и @data_events

На фото митап в Х5, который я организовывал и должен был выступать, но в последний момент уронил прод и никуда не поехал =)

@ohmydataengineer
Лошпед Сема забыл включить сердечки в реакциях.
Так что кто выше хотел поставить сердечки ❤️ - приходите поменять свое мнение =)
Пятничный юмор 😜

@ohmydataengineer
https://www.linkedin.com/business/talent/blog/talent-strategy/linkedin-most-in-demand-hard-and-soft-skills

Смотрите, что тут LinkedIn выкатил несколько дней назад - “Most in-demand hard and soft skills”. Как всегда, в чатиках успели это уже обсосать, но не спамить же вас контентом тыщу раз на дню?) Пара забавных наблюдений:

Global talent shortages have reached a 16-year high, as 75% of employers can’t find the talent they need with the right blend of technical and soft skills
Сокращения сокращениями, но вот нехватка кадров достигла 16-летнего максимума. Бигтехи сокращают, а людей все равно не хватает.

Второй забавный факт - вторым по популярности hard-скиллом является SQL. Мы все в пыль космическую превратимся, а SQL и Excel будут держать на руках половину анализа данных в мире.

Методика оценки довольно простая - посмотрели на свои данные, благо у LinkedIn этого достаточно:
The most in-demand skills were determined by looking at skills that are most sought after based on six months of data (April to October 2022) from employers, hirers, and job-posters on LinkedIn. Demand is measured by identifying skills possessed by members who were hired or InMailed, as well as the skills listed in paid job postings. In-demand hard skills were identified using the same methodology with an additional filter to exclude some of the most common nonspecialized skills.

@ohmydataengineer
Можно я обнаглею и повыпендриваюсь немножк, можно да? Ну пожалуйста, можно я чуть-чуть пощекочу и потеребонькаю свою гордость?

Как нужно проводить технический собесы, чтобы кандидаты, вне зависимости от результата, благодарили за него. И еще пара десятов(!!) благодарностей сказано на самих собесах.

Очень приятно это слышать, значит я делаю все правильно.


Спасибо, выпендреж закончен.🤪

@ohmydataengineer
This media is not supported in your browser
VIEW IN TELEGRAM
Немного очередного пятничного юмора

@ohmydataengineer
О покойниках или хорошо, или ничего.

Последний год было очень печально наблюдать смерть ODS. Для тех, кто не знает, что это такое, когда-то это была одна из самых крупных (если не самая крупная) сеть сообществ по DS и все, что связано с обработкой и хранением данных.
Если не обращать внимание на некоторых ну жутко токсичных людей, сообщество было очень полезным. Начиная от какого-то понимания рынка зарплат (к вакансиям было требование, чтобы они публиковались с вилкой), до каких-то узко-специализирванных каналов по технологиям, где всегда можно было подчерпнуть интересный материал.
Если не заходить в каналы-флудилки, это приносило пользу.

Но за последние 2 года там образовался культ нескольких личностей, часть полезных каналов просто утонуло в токсичности. А последний год стал вообще лебединой песней:

Сначала Slack сказал “Нам не важно, что вы большое и полезное сообщество, раз вы из РФ, платите по $10 за пользователя” и отключил регистрацию из РФ.
Организаторы отказались от того, чтобы сообщество стало платным, поэтому сообществу отключили историю выше 10к сообщений. С учетом адового флуда, все полезное быстро ушло.

Затем организаторы решили мигрировать в Matrix (это Web3 частик с e2e шифрованием), предумали всякие федерации и конфедерации (что за безумие?). Инвайты туда выдавали еле-еле, половина не работала, половина чатов и каналов пустовали. В общем, полная херня и ничего не вышло дельного.

А затем организаторы запачкались еще в “конференсном туризме” от РКН и в связах с государством.

Соответственно, вроде как 21 марта Slack должен отключить вообще полностью сообщество. И вот уже народ начал создавать свои сообщества в Slack зарегистрировавшись из других стран, в Mattermost, Discord и еще везде. В итоге, одно огромное сообщество распадется на свои очень маленькие кучки людей по интересам.

@ohmydataengineer
How it started / How it is going

Помните такой мем? Немножко улыбнулся от этой новости =)

P.S. Это ни в коем случае не намек и не призыв “А задонатьте мне сейчас!”. Донаты совершенно доброльные и только если вы действительно хотите поддержать то, что я делаю, даже 100 рублями. Это сообщение не должно оказывать давление на вашу совесть.

Впрочем, подозреваю, что 💩 накидают под постом, как бы я не писал о том, что это-просто-юмор!

@ohmydataengineer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Наверняка, идея не новая, но столкнулся я с ней впервые!

Кажется, что парсят LinkedIn, находят Team Lead позиции, по стандартной схеме name.last_name@company_name.com создают емейл и на него ковром бомбардируют.

Ну или проще (и без паранои и всяких технических уловок), кто-то из конференций и митапов, где я регался на рабочую почту, поделился контактами.
Но в футере с дисклеймерами ничего внятного на эту тему не было написано.

@ohmydataengineer
Пятничный юмор 🤪

@ohmydataengineer
The State of Data Engineering (но не в РФ). Часть 1.

Когда я выступал какое-то время назад на TechTrain, я делал опрос по поводу технологий/стека и языков, используемых у нас в сфере. Но опрос был сугубо на РФ аудиторию. Наткнулся тут у одного из популярных блоггеров на похожый опрос и решил посмотреть результаты. Результаты в большей степени релевантны для американского рынка, ~400 человек ответило, подавляющее большинство именно определяют себя как Data Engineer.

Смотрим картинки, мои комментарии, как всегда, особо и не нужны, и так все очевидно:

- Ходуб умер. Для аналитических платформ лидирует BQ, затем Snowflake, Redshift и Databricks. И это там, где была выбрана только одна платформа. У 41% респондентов >1 аналитической платформы.

- Airflow или самоделка. Все остальные оркестраторы проигрывают очень много. Еще интересный пункт None, это видимо кто-то руками или по крону запускает 🤪

- Проблема найма. Ну тут ничего удивительного, найти нормального инженера все также сложно, вне зависимости от лейофов.

Там еще 2 части с ответами есть, до них доберемся на неделе.

Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part

@ohmydataengineer
Пятничный юмор 🤪

@ohmydataengineer
Встреча в Белграде

На следующей неделе я буду в Белграде, с 24 по 28 марта, поэтому хочу предложить собраться и поболтать за околоайтишные темы.
Если есть желающие сделать мини-сходку, ставьте 🔥 и отписывайтесь в комменты к посту.

Кудрявый на фотки для привлечения внимания 🤪

@ohmydataengineer
The State of Data Engineering (но не в РФ). Часть 2.

Продолжаем обзор опроса, в этот раз уже речь идет про продвинутые штуки: качество данных, каталоги данных и вот это все. Предыдущая часть доступна была тут.

Что по интересным наблюдениям?

- Дата каталогов нет больше чем у половины. Там есть еще график, показывающий зависимость появления этой штуки от размера компании. И это с учетом каталогов в Экселе 🤪

- Если каталог есть, то это скорее всего какая-нибудь самописная штука. Радует в списке видеть Datafold, с которыми удалось поработать, очень приятные воспоминания остались от них.

- ETL системы немножк не понял, как задавался вопрос, поэтому оставлю без комментариев на радость фанатов dbt


Почитать в оригинале тут -> https://seattledataguy.substack.com/p/the-state-of-data-engineering-part-b61 (иногда пост открывается за paywall, поэтому используйте режим инкогнито)

@ohmydataengineer