data будни
1.44K subscribers
119 photos
1 video
2 files
232 links
работаю инженером данных и пишу в основном про это.

Профильные ссылки с коротким резюме (статьи, доклады, подкасты), иногда «софтовое» — например, про поиск работы.
加入频道
Введение в дата инжиниринг и аналитику

Дмитрий Аношин уже несколько лет работает в Амазоне, а до этого работал в Сбербанке, Ламоде и Терадате.

Дмитрий работал в разных больших компаниях и рассказывает только то, что действительно используется в работе. Типа «так, здесь у нас constraints, но по факту это никогда не используется — вычёркиваем» или «на собеседовании в Амазон спрашивали про схему звезды, но я сказал что обычно никто с этим не заморачивается… и прошёл»

В курсе есть обзор общей картины по работе с данными в компании: от источника до дешборда. И рассказ, какой специалист занимается каким участком

Курс бесплатный, выложен на Ютуб. Есть плейлисты с модулями: пока записано 3 (из 8?)

Ещё в рамках курса бывают вебинары с крутанами, например Роман Бунин про дешборды в Tableau.

#data_engineering
нужны ли алгоритмы программистам?

холиварный выпуск Moscow Python подкаста: Григорий Петров и Злата Обуховская накидывали на вентилятор, направленный на Асю Воронцову из Яндекса.

Тезис №1: знание алгоритмов нужны только тем, кто работает с высоконагруженными сервисами, где важна эффективности. Типа ядра Линукса или поисковика Яндекса. (важно отметить: даже в самом Яндексе не все работают с хайлоадом)

Тезис №2: внедрение алгоритмов в код ухудшает его читаемость. Это важно, т.к. код больше читается, чем пишется.

Тезис №3: времязатраты на написание эффективного кода не всегда окупается. Можно потратить две недели на код, который даёт всего 5% в сравнении с уже готовой библиотекой.

Тезис №4: профилировщик — лучший друг программиста. Это снимает большинство вопросов с эффективностью. Например, он подскажет, если вдруг код зайдёт в цикл.

Тезис №5: в больших компаниях спрашивают знание алгоритмов (и умение их писать на бумажке) не только ради самого знания, но и просто как ещё один фильтр, чтобы отсеять людей, которые уже приложили усилия и вызубрили редко используемую информацию.

#data_podcast в iTunes и overcast

#python
#algorithms
Какие дата инженеры бывают и чего от них все хотят?
Запись доклада Николая Маркова с митапа DE or DIE

Кого могут называть дата инженером в разных компаниях:
⁃ ETL разработчика (pandas, PostgreSQL etc.)
⁃ «оператора» Hadoop на Java
⁃ архитектора хранилищ (Data Warehouse, Data Lake)
⁃ DevOps (Jenkins, Agile etc.)

Определение Николая:
«Data Engineer — это человек, который умеет правильно использовать компьютеры»

Наскриншотил несколько слайдов. Есть даже про игры)

https://youtu.be/GfBWzXxF5M8

#data_engineer #data_video
Методы управления разработкой

В крупной компании команда несколько лет работала над продуктом. Когда его в итоге показали конечному заказчику, оказалось, что проект уже не нужен и его просто выбросили. Получается, много человек потратили много лет своей жизни впустую.

Так работает метод управления разработкой «водопад» (waterfall). Задачи идут последовательно одна за другой: два месяца на исследование, несколько лет на разработку, ещё сколько-то на внедрение. До самого конца заказчик ничего не видит — ему нужен только конечный результат.

Другой метод — аджайл. В Спотифай применяют как раз его: короткие итерации с ощутимым итогом после каждой — Spotify Model, развившееся в Spotify Rhythm.

из подкаста «Запуск завтра»
https://yangx.top/ctodaily/1157

#data_podcast
АйТи в строительной компании ПИК

послушал выпуск подкаста «запуск завтра» с главным айтишником из ПИКа.

Дом проектируется как цифровой объект, где каждая дверь и труба описана как сущность с кучей параметров. В 3Д это можно визуализировать как угодно по «слоям».

Проектирование дома — процесс на несколько лет.

Строительный процесс поставлен на поток: параллельно ищутся участки под стройку, происходит анализ доступных участков, на своих участках строятся дома, построенные дома продаются, а уже проданные — обслуживаются.

Отдельная тема выпуска — про введение подобных трансформаций в компании. Как исчезают рабочие места «операторов ввода информации в ЭВМ» и автоматизируется рутинная работа с подрядчиками. С кем-то договориться, других взять большинством, к иным «зайти сверху», с остальными — расстаться.

https://yangx.top/ctodaily/1158

#data_podcast
Data Engineering в Яндекс Такси

посмотрел запись доклада Евгения Ермакова —архитектора Data Management Platform Яндекс. Делюсь заметками и слайдами.

Ссылка на видео и презентацию на сайте митапа
https://deordie.com/meetups/01/

#data_video
Отличия ML и DS

Глеб Синяков — аналитик-разработчик в Тинькофф — обсудил с ребятами из Moscow Python разницу в названиях профессий.

почему специалистов по машинному обучению называют дата саентистами?

пошло от того, что 5 лет назад «дата саентист» умел только в математику. К нему приставляли отдельного разработчика — «переводчика на питон». Плюс к этому бэкэндера, который пытается из моделей делать продукт.

Постепенно всё пришло к тому, что весь спектр задач работы с данными надо уметь самому. Разделение ролей идёт на больших проектах и больших данных.

→ то есть не Data Scientist, а ML Engineer


- код в Jupyter notebooks — боль разработчика: сама среда располагает к беспорядочному коду, где даже думать не хочется о модульности и правильном коде.

Как бороться? Писать законченные изолированные модули в PyCharm и импортировать их в ноутбуки. И уже там открывать файлы и тестировать работу.

⁃ Как потом хранить эти ноутбуки в Git? Складывать всё в отдельную ветку и потом пушить одним жирным коммитом.

Минимальный продукт от ML инженера — это pip-install-ируемый модуль, чтобы любой другой человек мог его включить и запустить на своей машине.

Подкаст в iTunes и Overcast

#data_podcast
#data_podcast

Запуск Завтра с Давидом Яном (ABBY, Yva)
от создания словаря для перевода в 1989 году до создания автономного дома со своим сознанием. Где-то между этим был Fine Reader, ABBY и сервис для прогнозирования выгорания сотрудников по переписке

Habr Special с Виктором Кантор, МТС
что такое биг дата, кто её может применять и что она умеет

Data Alone Is Not Enough: The Evolution of Data Architectures — a16z венчурные инвесторы из долины обсуждают в общих чертах историю и подходы работы с данными

The Rise of the Analytics Engineer with Claire Carroll
сложно быть «просто» аналитиком, когда постоянно очищать данные и приводить их к единому формату. Так появляется профессия Analytics Engineer (это не ещё одно название Data Engineer — это другое)
Алексей Макаров в гостях у подкаста «Каждый может» рассказал про аналитику в целом и аналитиков данных в частности. Получилась такая хорошая беседа, чтобы понять что это за отрасль такая и чем занимаются аналитики.

Алексей давно в отрасли, ведёт канал @datalytx

Слушать в iTunes и Overcast

Порадовался, когда Алексей упомянул мой кейс про поиск работы: когда я по данным с фитнес трекера опознал человека, чьи это были данные ^_^
https://sashamikhailov.ru/blog/all/welltory-data-engineer/

#data_podcast
data будни
Тред про роли в data отрасли https://twitter.com/dsunderhood/status/1352239176817778691
И ещё пост главного по экспериментам из YELP о том, что все роли хороши и всех надо уважать и ценить. «Дата саентист» — это не следующая ступень развития аналитика. И вообще не надо всех подряд называть «дата саентистами».

https://www.linkedin.com/posts/eric-weber-060397b7_data-datascience-activity-6754417602614882304-_37T/
Послушать:

Лену Бунину — гендиректора Яндекса и профессора МГУ про то нужна ли математика в программировании.

Вместе с ведущим — Салатом Галимовым — прошлись по всем сервисам Яндекса и прикинули сколько там математики. В среднем по рынку примерно 20% программистам нужна математика. В Яндекса — примерно половине. Например, сделать распределённую устойчивую и быструю базу данных.

Интересно, что математика иногда уходит в полную абстракцию и не совсем понятно как это можно применить в реальном мире. Так было и с популярными сейчас нейросетями — математическую основу для придумали ещё в 70-х, но до 2000-х годов не было доступной компьютерной мощности для их применения.

https://yangx.top/ctodaily/1270


Анализ данных и Python

Суровые программисты из Moscow Python пригласили BI разработчика поговорить про анализ данных

Интересно, что ребята быстро пробежались перечислили основные инструменты жду анализа данных и потом долго обсуждали критическое мышление и общие когнитивные способности. Набор обсуждаемых книг тоже получился нетипичным: Thinking Fast and Slow Даниела Канемана и «Слепой часовщик» Ричарда Докинза.

Подкаст в Apple Podcasts

#data_podcast
Google Big Query

На последнем проекте удалось поработать с Big Query — собрали на нём DWH с данными из 10 разных БД, чтобы строить сквозные отчёты по всем отделам.

Big Query — это облачная база данных с нетипичными свойствами. Размер хранимых данных никак не ограничен — не надо думать сколько это всё занимает места на диске и сколько нужно серверов чтобы всё нормально работало.

Плату берут не за хранение данных, а за доступ к ним: 6 долларов за каждый просканированный терабайт данных. Главную опасность в таком случае представляют не ручные запросы аналитиков, а код дата инженеров: один невнимательный цикл может запросто пройтись несколько сотен раз по таблице в 10 гигабайт.

Вместо ограничения на количество данных, есть другие: количество запросов по АПИ (1500 в сутки на таблицу или не более 5 запросов каждые 10 секунд; и ещё разные другие).

Поэтому данные приходится туда заливать особым образом: сначала данные форматируются в Parquet файлы, заливаются на облачный Google Storage, а потом уже импортируются в таблицу в Big Query. Таким образом удаётся не превысить суточные лимиты.

#data_tools
Forwarded from Data Coffee
136 (S5E21). Будни дата-инженера

В гостях у подкаста 🎙"Data Coffee" Саша Михайлов, дата инженер ( Telegram⁠, LinkedIn⁠)

Обсудили:
• кофе
• дата инженер
• нужен ли CDO для data mesh
• карьерный путь
• переезд в Швецию
• деанон по фитнес-трекеру
• детские сады района
• почему дата инженер
• pet projects
• как развиваться

Сайт: ⁠⁠⁠⁠⁠⁠⁠⁠https://datacoffee.link⁠⁠⁠⁠⁠⁠⁠⁠
Telegram: ⁠⁠⁠⁠⁠⁠⁠⁠https://yangx.top/datacoffee⁠⁠⁠⁠⁠⁠⁠⁠
Mastodon: ⁠⁠⁠⁠⁠⁠⁠⁠https://techhub.social/@datacoffee⁠⁠⁠⁠⁠⁠⁠⁠
Чат подкаста: ⁠⁠⁠⁠⁠⁠⁠⁠https://yangx.top/datacoffee_chat

#datacoffee #data #podcast #данные #подкаст #кофе #coffee

Где слушать🎧:
Бот-плеер
RSS feed
YouTube
Остальные площадки
🔥92👍1😁1