Введение в дата инжиниринг и аналитику
Дмитрий Аношин уже несколько лет работает в Амазоне, а до этого работал в Сбербанке, Ламоде и Терадате.
Дмитрий работал в разных больших компаниях и рассказывает только то, что действительно используется в работе. Типа «так, здесь у нас constraints, но по факту это никогда не используется — вычёркиваем» или «на собеседовании в Амазон спрашивали про схему звезды, но я сказал что обычно никто с этим не заморачивается… и прошёл»
В курсе есть обзор общей картины по работе с данными в компании: от источника до дешборда. И рассказ, какой специалист занимается каким участком
Курс бесплатный, выложен на Ютуб. Есть плейлисты с модулями: пока записано 3 (из 8?)
Ещё в рамках курса бывают вебинары с крутанами, например Роман Бунин про дешборды в Tableau.
#data_engineering
Дмитрий Аношин уже несколько лет работает в Амазоне, а до этого работал в Сбербанке, Ламоде и Терадате.
Дмитрий работал в разных больших компаниях и рассказывает только то, что действительно используется в работе. Типа «так, здесь у нас constraints, но по факту это никогда не используется — вычёркиваем» или «на собеседовании в Амазон спрашивали про схему звезды, но я сказал что обычно никто с этим не заморачивается… и прошёл»
В курсе есть обзор общей картины по работе с данными в компании: от источника до дешборда. И рассказ, какой специалист занимается каким участком
Курс бесплатный, выложен на Ютуб. Есть плейлисты с модулями: пока записано 3 (из 8?)
Ещё в рамках курса бывают вебинары с крутанами, например Роман Бунин про дешборды в Tableau.
#data_engineering
нужны ли алгоритмы программистам?
холиварный выпуск Moscow Python подкаста: Григорий Петров и Злата Обуховская накидывали на вентилятор, направленный на Асю Воронцову из Яндекса.
Тезис №1: знание алгоритмов нужны только тем, кто работает с высоконагруженными сервисами, где важна эффективности. Типа ядра Линукса или поисковика Яндекса. (важно отметить: даже в самом Яндексе не все работают с хайлоадом)
Тезис №2: внедрение алгоритмов в код ухудшает его читаемость. Это важно, т.к. код больше читается, чем пишется.
Тезис №3: времязатраты на написание эффективного кода не всегда окупается. Можно потратить две недели на код, который даёт всего 5% в сравнении с уже готовой библиотекой.
Тезис №4: профилировщик — лучший друг программиста. Это снимает большинство вопросов с эффективностью. Например, он подскажет, если вдруг код зайдёт в цикл.
Тезис №5: в больших компаниях спрашивают знание алгоритмов (и умение их писать на бумажке) не только ради самого знания, но и просто как ещё один фильтр, чтобы отсеять людей, которые уже приложили усилия и вызубрили редко используемую информацию.
#data_podcast в iTunes и overcast
#python
#algorithms
холиварный выпуск Moscow Python подкаста: Григорий Петров и Злата Обуховская накидывали на вентилятор, направленный на Асю Воронцову из Яндекса.
Тезис №1: знание алгоритмов нужны только тем, кто работает с высоконагруженными сервисами, где важна эффективности. Типа ядра Линукса или поисковика Яндекса. (важно отметить: даже в самом Яндексе не все работают с хайлоадом)
Тезис №2: внедрение алгоритмов в код ухудшает его читаемость. Это важно, т.к. код больше читается, чем пишется.
Тезис №3: времязатраты на написание эффективного кода не всегда окупается. Можно потратить две недели на код, который даёт всего 5% в сравнении с уже готовой библиотекой.
Тезис №4: профилировщик — лучший друг программиста. Это снимает большинство вопросов с эффективностью. Например, он подскажет, если вдруг код зайдёт в цикл.
Тезис №5: в больших компаниях спрашивают знание алгоритмов (и умение их писать на бумажке) не только ради самого знания, но и просто как ещё один фильтр, чтобы отсеять людей, которые уже приложили усилия и вызубрили редко используемую информацию.
#data_podcast в iTunes и overcast
#python
#algorithms
Apple Podcasts
«Moscow Python: подкаст о Python на русском»: «Moscow Python Podcast. Алгоритмы vs Профилировщик (level: All)» в Apple Podcasts
Шоу «Moscow Python: подкаст о Python на русском», выпуск «Moscow Python Podcast. Алгоритмы vs Профилировщик (level: All)» от 12 авг. 2020 г.
Какие дата инженеры бывают и чего от них все хотят?
Запись доклада Николая Маркова с митапа DE or DIE
Кого могут называть дата инженером в разных компаниях:
⁃ ETL разработчика (pandas, PostgreSQL etc.)
⁃ «оператора» Hadoop на Java
⁃ архитектора хранилищ (Data Warehouse, Data Lake)
⁃ DevOps (Jenkins, Agile etc.)
Определение Николая:
«Data Engineer — это человек, который умеет правильно использовать компьютеры»
Наскриншотил несколько слайдов. Есть даже про игры)
https://youtu.be/GfBWzXxF5M8
#data_engineer #data_video
Запись доклада Николая Маркова с митапа DE or DIE
Кого могут называть дата инженером в разных компаниях:
⁃ ETL разработчика (pandas, PostgreSQL etc.)
⁃ «оператора» Hadoop на Java
⁃ архитектора хранилищ (Data Warehouse, Data Lake)
⁃ DevOps (Jenkins, Agile etc.)
Определение Николая:
«Data Engineer — это человек, который умеет правильно использовать компьютеры»
Наскриншотил несколько слайдов. Есть даже про игры)
https://youtu.be/GfBWzXxF5M8
#data_engineer #data_video
data будни
Какие дата инженеры бывают и чего от них все хотят? Запись доклада Николая Маркова с митапа DE or DIE Кого могут называть дата инженером в разных компаниях: ⁃ ETL разработчика (pandas, PostgreSQL etc.) ⁃ «оператора» Hadoop на Java ⁃ архитектора хранилищ…
Чо погамать?
отдельный слайд доклада Николая Маркова был посвещён играм для дата инженеров для прокачки системного мышления. Вот ссылки в Стим:
Factorio
https://store.steampowered.com/app/427520/Factorio/
TIS-100
https://store.steampowered.com/app/370360/TIS100/
MHRD
https://store.steampowered.com/app/576030/MHRD/
Human Resource Machine
https://store.steampowered.com/app/375820/Human_Resource_Machine/
Baba Is You
https://store.steampowered.com/app/736260/Baba_Is_You/
#data_engineering #games #friday
отдельный слайд доклада Николая Маркова был посвещён играм для дата инженеров для прокачки системного мышления. Вот ссылки в Стим:
Factorio
https://store.steampowered.com/app/427520/Factorio/
TIS-100
https://store.steampowered.com/app/370360/TIS100/
MHRD
https://store.steampowered.com/app/576030/MHRD/
Human Resource Machine
https://store.steampowered.com/app/375820/Human_Resource_Machine/
Baba Is You
https://store.steampowered.com/app/736260/Baba_Is_You/
#data_engineering #games #friday
Методы управления разработкой
В крупной компании команда несколько лет работала над продуктом. Когда его в итоге показали конечному заказчику, оказалось, что проект уже не нужен и его просто выбросили. Получается, много человек потратили много лет своей жизни впустую.
Так работает метод управления разработкой «водопад» (waterfall). Задачи идут последовательно одна за другой: два месяца на исследование, несколько лет на разработку, ещё сколько-то на внедрение. До самого конца заказчик ничего не видит — ему нужен только конечный результат.
Другой метод — аджайл. В Спотифай применяют как раз его: короткие итерации с ощутимым итогом после каждой — Spotify Model, развившееся в Spotify Rhythm.
из подкаста «Запуск завтра»
https://yangx.top/ctodaily/1157
#data_podcast
В крупной компании команда несколько лет работала над продуктом. Когда его в итоге показали конечному заказчику, оказалось, что проект уже не нужен и его просто выбросили. Получается, много человек потратили много лет своей жизни впустую.
Так работает метод управления разработкой «водопад» (waterfall). Задачи идут последовательно одна за другой: два месяца на исследование, несколько лет на разработку, ещё сколько-то на внедрение. До самого конца заказчик ничего не видит — ему нужен только конечный результат.
Другой метод — аджайл. В Спотифай применяют как раз его: короткие итерации с ощутимым итогом после каждой — Spotify Model, развившееся в Spotify Rhythm.
из подкаста «Запуск завтра»
https://yangx.top/ctodaily/1157
#data_podcast
Telegram
запуск завтра
Как управляют разработкой в самом популярном музыкальном сервисе в мире?
5 лет назад Spotify рассказали о своей системе управления разработкой, Spotify model. Сегодня о ней знает любой менеджер в IT, а многие положения из этой системы стали стандартами де…
5 лет назад Spotify рассказали о своей системе управления разработкой, Spotify model. Сегодня о ней знает любой менеджер в IT, а многие положения из этой системы стали стандартами де…
АйТи в строительной компании ПИК
послушал выпуск подкаста «запуск завтра» с главным айтишником из ПИКа.
Дом проектируется как цифровой объект, где каждая дверь и труба описана как сущность с кучей параметров. В 3Д это можно визуализировать как угодно по «слоям».
Проектирование дома — процесс на несколько лет.
Строительный процесс поставлен на поток: параллельно ищутся участки под стройку, происходит анализ доступных участков, на своих участках строятся дома, построенные дома продаются, а уже проданные — обслуживаются.
Отдельная тема выпуска — про введение подобных трансформаций в компании. Как исчезают рабочие места «операторов ввода информации в ЭВМ» и автоматизируется рутинная работа с подрядчиками. С кем-то договориться, других взять большинством, к иным «зайти сверху», с остальными — расстаться.
https://yangx.top/ctodaily/1158
#data_podcast
послушал выпуск подкаста «запуск завтра» с главным айтишником из ПИКа.
Дом проектируется как цифровой объект, где каждая дверь и труба описана как сущность с кучей параметров. В 3Д это можно визуализировать как угодно по «слоям».
Проектирование дома — процесс на несколько лет.
Строительный процесс поставлен на поток: параллельно ищутся участки под стройку, происходит анализ доступных участков, на своих участках строятся дома, построенные дома продаются, а уже проданные — обслуживаются.
Отдельная тема выпуска — про введение подобных трансформаций в компании. Как исчезают рабочие места «операторов ввода информации в ЭВМ» и автоматизируется рутинная работа с подрядчиками. С кем-то договориться, других взять большинством, к иным «зайти сверху», с остальными — расстаться.
https://yangx.top/ctodaily/1158
#data_podcast
Telegram
запуск завтра
Банки, такси и доставка продуктов давно живут в интернете, в этом нет ничего странного. Но то, сколько IT в современной стройке я не знал, пока не познакомился с Сережей Фуксманом.
Серёжа — вице-президент по информационным технологиям в группе компаний…
Серёжа — вице-президент по информационным технологиям в группе компаний…
Data Engineering в Яндекс Такси
посмотрел запись доклада Евгения Ермакова —архитектора Data Management Platform Яндекс. Делюсь заметками и слайдами.
Ссылка на видео и презентацию на сайте митапа
https://deordie.com/meetups/01/
#data_video
посмотрел запись доклада Евгения Ермакова —архитектора Data Management Platform Яндекс. Делюсь заметками и слайдами.
Ссылка на видео и презентацию на сайте митапа
https://deordie.com/meetups/01/
#data_video
DE or DIE
DE or DIE #1
DE or DIE – митап, сделанный дата инженерами для дата инженеров.
Отличия ML и DS
Глеб Синяков — аналитик-разработчик в Тинькофф — обсудил с ребятами из Moscow Python разницу в названиях профессий.
⁃ почему специалистов по машинному обучению называют дата саентистами?
пошло от того, что 5 лет назад «дата саентист» умел только в математику. К нему приставляли отдельного разработчика — «переводчика на питон». Плюс к этому бэкэндера, который пытается из моделей делать продукт.
Постепенно всё пришло к тому, что весь спектр задач работы с данными надо уметь самому. Разделение ролей идёт на больших проектах и больших данных.
→ то есть не Data Scientist, а ML Engineer ←
- код в Jupyter notebooks — боль разработчика: сама среда располагает к беспорядочному коду, где даже думать не хочется о модульности и правильном коде.
Как бороться? Писать законченные изолированные модули в PyCharm и импортировать их в ноутбуки. И уже там открывать файлы и тестировать работу.
⁃ Как потом хранить эти ноутбуки в Git? Складывать всё в отдельную ветку и потом пушить одним жирным коммитом.
⁃ Минимальный продукт от ML инженера — это pip-install-ируемый модуль, чтобы любой другой человек мог его включить и запустить на своей машине.
Подкаст в iTunes и Overcast
#data_podcast
Глеб Синяков — аналитик-разработчик в Тинькофф — обсудил с ребятами из Moscow Python разницу в названиях профессий.
⁃ почему специалистов по машинному обучению называют дата саентистами?
пошло от того, что 5 лет назад «дата саентист» умел только в математику. К нему приставляли отдельного разработчика — «переводчика на питон». Плюс к этому бэкэндера, который пытается из моделей делать продукт.
Постепенно всё пришло к тому, что весь спектр задач работы с данными надо уметь самому. Разделение ролей идёт на больших проектах и больших данных.
→ то есть не Data Scientist, а ML Engineer ←
- код в Jupyter notebooks — боль разработчика: сама среда располагает к беспорядочному коду, где даже думать не хочется о модульности и правильном коде.
Как бороться? Писать законченные изолированные модули в PyCharm и импортировать их в ноутбуки. И уже там открывать файлы и тестировать работу.
⁃ Как потом хранить эти ноутбуки в Git? Складывать всё в отдельную ветку и потом пушить одним жирным коммитом.
⁃ Минимальный продукт от ML инженера — это pip-install-ируемый модуль, чтобы любой другой человек мог его включить и запустить на своей машине.
Подкаст в iTunes и Overcast
#data_podcast
Apple Podcasts
Moscow Python Podcast. Профессии в ML и DS (level: All)
Выпуск подкаста · Moscow Python: подкаст о Python на русском · 26.09.2020 · 40 мин.
#data_podcast
⁃ Запуск Завтра с Давидом Яном (ABBY, Yva)
от создания словаря для перевода в 1989 году до создания автономного дома со своим сознанием. Где-то между этим был Fine Reader, ABBY и сервис для прогнозирования выгорания сотрудников по переписке
⁃ Habr Special с Виктором Кантор, МТС
что такое биг дата, кто её может применять и что она умеет
⁃ Data Alone Is Not Enough: The Evolution of Data Architectures — a16z венчурные инвесторы из долины обсуждают в общих чертах историю и подходы работы с данными
⁃ The Rise of the Analytics Engineer with Claire Carroll
сложно быть «просто» аналитиком, когда постоянно очищать данные и приводить их к единому формату. Так появляется профессия Analytics Engineer (это не ещё одно название Data Engineer — это другое)
⁃ Запуск Завтра с Давидом Яном (ABBY, Yva)
от создания словаря для перевода в 1989 году до создания автономного дома со своим сознанием. Где-то между этим был Fine Reader, ABBY и сервис для прогнозирования выгорания сотрудников по переписке
⁃ Habr Special с Виктором Кантор, МТС
что такое биг дата, кто её может применять и что она умеет
⁃ Data Alone Is Not Enough: The Evolution of Data Architectures — a16z венчурные инвесторы из долины обсуждают в общих чертах историю и подходы работы с данными
⁃ The Rise of the Analytics Engineer with Claire Carroll
сложно быть «просто» аналитиком, когда постоянно очищать данные и приводить их к единому формату. Так появляется профессия Analytics Engineer (это не ещё одно название Data Engineer — это другое)
Apple Podcasts
Как искусственный интеллект предсказывает поведение людей, экономит бизнесу миллионы долларов и заменяет нам домашних животных
Давид Ян в 1989 году создал электронный словарь Lingvo, а потом запустил систему распознавания документов FineReader, которая теперь установлена на половине ска
Алексей Макаров в гостях у подкаста «Каждый может» рассказал про аналитику в целом и аналитиков данных в частности. Получилась такая хорошая беседа, чтобы понять что это за отрасль такая и чем занимаются аналитики.
Алексей давно в отрасли, ведёт канал @datalytx
Слушать в iTunes и Overcast
Порадовался, когда Алексей упомянул мой кейс про поиск работы: когда я по данным с фитнес трекера опознал человека, чьи это были данные ^_^
https://sashamikhailov.ru/blog/all/welltory-data-engineer/
#data_podcast
Алексей давно в отрасли, ведёт канал @datalytx
Слушать в iTunes и Overcast
Порадовался, когда Алексей упомянул мой кейс про поиск работы: когда я по данным с фитнес трекера опознал человека, чьи это были данные ^_^
https://sashamikhailov.ru/blog/all/welltory-data-engineer/
#data_podcast
Apple Podcasts
«Каждый МОЖЕТ» в Apple Podcasts
Образование · 2021
data будни
Тред про роли в data отрасли https://twitter.com/dsunderhood/status/1352239176817778691
И ещё пост главного по экспериментам из YELP о том, что все роли хороши и всех надо уважать и ценить. «Дата саентист» — это не следующая ступень развития аналитика. И вообще не надо всех подряд называть «дата саентистами».
https://www.linkedin.com/posts/eric-weber-060397b7_data-datascience-activity-6754417602614882304-_37T/
https://www.linkedin.com/posts/eric-weber-060397b7_data-datascience-activity-6754417602614882304-_37T/
Послушать:
Лену Бунину — гендиректора Яндекса и профессора МГУ про то нужна ли математика в программировании.
Вместе с ведущим — Салатом Галимовым — прошлись по всем сервисам Яндекса и прикинули сколько там математики. В среднем по рынку примерно 20% программистам нужна математика. В Яндекса — примерно половине. Например, сделать распределённую устойчивую и быструю базу данных.
Интересно, что математика иногда уходит в полную абстракцию и не совсем понятно как это можно применить в реальном мире. Так было и с популярными сейчас нейросетями — математическую основу для придумали ещё в 70-х, но до 2000-х годов не было доступной компьютерной мощности для их применения.
https://yangx.top/ctodaily/1270
Анализ данных и Python
Суровые программисты из Moscow Python пригласили BI разработчика поговорить про анализ данных
Интересно, что ребята быстро пробежались перечислили основные инструменты жду анализа данных и потом долго обсуждали критическое мышление и общие когнитивные способности. Набор обсуждаемых книг тоже получился нетипичным: Thinking Fast and Slow Даниела Канемана и «Слепой часовщик» Ричарда Докинза.
Подкаст в Apple Podcasts
#data_podcast
Лену Бунину — гендиректора Яндекса и профессора МГУ про то нужна ли математика в программировании.
Вместе с ведущим — Салатом Галимовым — прошлись по всем сервисам Яндекса и прикинули сколько там математики. В среднем по рынку примерно 20% программистам нужна математика. В Яндекса — примерно половине. Например, сделать распределённую устойчивую и быструю базу данных.
Интересно, что математика иногда уходит в полную абстракцию и не совсем понятно как это можно применить в реальном мире. Так было и с популярными сейчас нейросетями — математическую основу для придумали ещё в 70-х, но до 2000-х годов не было доступной компьютерной мощности для их применения.
https://yangx.top/ctodaily/1270
Анализ данных и Python
Суровые программисты из Moscow Python пригласили BI разработчика поговорить про анализ данных
Интересно, что ребята быстро пробежались перечислили основные инструменты жду анализа данных и потом долго обсуждали критическое мышление и общие когнитивные способности. Набор обсуждаемых книг тоже получился нетипичным: Thinking Fast and Slow Даниела Канемана и «Слепой часовщик» Ричарда Докинза.
Подкаст в Apple Podcasts
#data_podcast
Telegram
запуск завтра
🎙 Нужна ли математика программисту? Разбираемся с гендиром Яндекса в России Еленой Буниной.
Мы с гостями подкаста много раз отвечали на вопрос, нужно ли знать математику и иметь университетское образование, чтобы заниматься программированием. Но вопросы…
Мы с гостями подкаста много раз отвечали на вопрос, нужно ли знать математику и иметь университетское образование, чтобы заниматься программированием. Но вопросы…
Google Big Query
На последнем проекте удалось поработать с Big Query — собрали на нём DWH с данными из 10 разных БД, чтобы строить сквозные отчёты по всем отделам.
Big Query — это облачная база данных с нетипичными свойствами. Размер хранимых данных никак не ограничен — не надо думать сколько это всё занимает места на диске и сколько нужно серверов чтобы всё нормально работало.
Плату берут не за хранение данных, а за доступ к ним: 6 долларов за каждый просканированный терабайт данных. Главную опасность в таком случае представляют не ручные запросы аналитиков, а код дата инженеров: один невнимательный цикл может запросто пройтись несколько сотен раз по таблице в 10 гигабайт.
Вместо ограничения на количество данных, есть другие: количество запросов по АПИ (1500 в сутки на таблицу или не более 5 запросов каждые 10 секунд; и ещё разные другие).
Поэтому данные приходится туда заливать особым образом: сначала данные форматируются в Parquet файлы, заливаются на облачный Google Storage, а потом уже импортируются в таблицу в Big Query. Таким образом удаётся не превысить суточные лимиты.
#data_tools
На последнем проекте удалось поработать с Big Query — собрали на нём DWH с данными из 10 разных БД, чтобы строить сквозные отчёты по всем отделам.
Big Query — это облачная база данных с нетипичными свойствами. Размер хранимых данных никак не ограничен — не надо думать сколько это всё занимает места на диске и сколько нужно серверов чтобы всё нормально работало.
Плату берут не за хранение данных, а за доступ к ним: 6 долларов за каждый просканированный терабайт данных. Главную опасность в таком случае представляют не ручные запросы аналитиков, а код дата инженеров: один невнимательный цикл может запросто пройтись несколько сотен раз по таблице в 10 гигабайт.
Вместо ограничения на количество данных, есть другие: количество запросов по АПИ (1500 в сутки на таблицу или не более 5 запросов каждые 10 секунд; и ещё разные другие).
Поэтому данные приходится туда заливать особым образом: сначала данные форматируются в Parquet файлы, заливаются на облачный Google Storage, а потом уже импортируются в таблицу в Big Query. Таким образом удаётся не превысить суточные лимиты.
#data_tools
Forwarded from Data Coffee
136 (S5E21). Будни дата-инженера
В гостях у подкаста 🎙"Data Coffee" Саша Михайлов, дата инженер ( Telegram, LinkedIn)
Обсудили:
• кофе
• дата инженер
• нужен ли CDO для data mesh
• карьерный путь
• переезд в Швецию
• деанон по фитнес-трекеру
• детские сады района
• почему дата инженер
• pet projects
• как развиваться
Сайт: https://datacoffee.link
Telegram: https://yangx.top/datacoffee
Mastodon: https://techhub.social/@datacoffee
Чат подкаста: https://yangx.top/datacoffee_chat
#datacoffee #data #podcast #данные #подкаст #кофе #coffee
Где слушать🎧:
— Бот-плеер
— RSS feed
— YouTube
— Остальные площадки
В гостях у подкаста 🎙"Data Coffee" Саша Михайлов, дата инженер ( Telegram, LinkedIn)
Обсудили:
• кофе
• дата инженер
• нужен ли CDO для data mesh
• карьерный путь
• переезд в Швецию
• деанон по фитнес-трекеру
• детские сады района
• почему дата инженер
• pet projects
• как развиваться
Сайт: https://datacoffee.link
Telegram: https://yangx.top/datacoffee
Mastodon: https://techhub.social/@datacoffee
Чат подкаста: https://yangx.top/datacoffee_chat
#datacoffee #data #podcast #данные #подкаст #кофе #coffee
Где слушать🎧:
— Бот-плеер
— RSS feed
— YouTube
— Остальные площадки
🔥9❤2👍1😁1