Привет, друзья!
В прошлом посте, посвящённом задачам с собеседований, обсудили с вами метрики классификации. Как показывает практика, вторая по популярности тема - про деревья и ансамбли над ними🌳🌲🌴
Почему так? Во-первых, бустинги - самые эффективные алгоритмы на табличных данных; а во-вторых, это довольно обширная тема, в которой можно придумать много вопросов. Ловите небольшой список😁
1️⃣ Какое максимальное количество листьев у бинарного дерева глубины 4?
2️⃣ Назовите общие типы ансамблирования. Какое можно дать определение в этих терминах алгоритмам случайного леса и градиентного бустинга?
3️⃣ Можно ли построить ансамбль из линейных регрессий? Будет ли это эффективнее ансамбля над решающими деревьями?
4️⃣ В чем заключается "случайность" в алгоритме случайного леса?
5️⃣ Назовите три самых популярных алгоритма бустинга (для них же существуют одноимённые библиотеки).
6️⃣ В чём главный недостаток дерева решений относительно линейной регрессии? (Подсказка: подумайте, как ведут себя эти алгоритмы на тестовой выборке, диапазон значений признаков для которой шире тренировочной)
7️⃣ Как изменится качество алгоритма случайного леса, если из него удалить одно решающее дерево?
8️⃣ Как изменится качество бустинга, если из него удалить самое первое решающее дерево?
Пишите в комментариях, что думаете👇
На следующей неделе будем подводить итоги🙃
Удачной недели!🌺
#карьера@data_easy
В прошлом посте, посвящённом задачам с собеседований, обсудили с вами метрики классификации. Как показывает практика, вторая по популярности тема - про деревья и ансамбли над ними🌳🌲🌴
Почему так? Во-первых, бустинги - самые эффективные алгоритмы на табличных данных; а во-вторых, это довольно обширная тема, в которой можно придумать много вопросов. Ловите небольшой список😁
Пишите в комментариях, что думаете👇
На следующей неделе будем подводить итоги🙃
Удачной недели!🌺
#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
EasyData
По статистике на 4-х из 5-ти собеседований обязательно попадается вопрос про метрики классификации. В этой теме можно придумать много занимательных задач + таким образом можно проверить сразу знание и ML, и математики (если вопрос не просто на определение).…
❤6🔥6🤯1
Доброго вечера, друзья!
В свете последних новостей про ютуб наконец-то собралась начать вести его😅
Первый содержательный shorts про тренды в DS 2024 уже на канале😁
Пишите, что вам было бы интересно посмотреть👀
#карьера@data_easy
В свете последних новостей про ютуб наконец-то собралась начать вести его😅
Первый содержательный shorts про тренды в DS 2024 уже на канале😁
Пишите, что вам было бы интересно посмотреть👀
#карьера@data_easy
YouTube
Тренды data science 2024 #поискработы #datascience #it #войтивайти
Рынок профессии data science уже не тот, что пару лет назад. Появляются тенденции, которые важно учитывать при поиске работы, выборе направления для дальнейш...
🔥9❤7😁5😍2
Привет, друзья!
Итак, ответы на вопросы про деревья🌲🌳🌴
1️⃣ В бинарном дереве у каждой вершины может быть не более 2-х потомков. Получается: имеется одна корневая вершина; не более 2-х на втором «уровне»; не более 4-х на третьем; не более 8-ми на четвертом. Листьями будем считать как бы пятый уровень — их будет не более 16-ти. Если проследить логику, можно вывести общую формулу: максимальное число листьев для бинарного дерева глубины n равно 2^n.
2️⃣ Из общих типов ансамблирования можно назвать бэггинг, стекинг, блендинг и бустинг (почитать про них подробнее можно, например, здесь). В этих терминах случайный лес — это бэггинг решающих деревьев, а градиентный бустинг — бустинг над решающими деревьями:)
3️⃣ Технически сделать ансамбль из линейных моделей никто не запрещает, но комбинация линейных моделей будет той же самой линейной моделью — поэтому что-то более эффективное и качественное мы вряд ли получим. Деревья же являются нелинейными алгоритмами, поэтому ансамбли над ними помогают находить новые сложные зависимости.
4️⃣ Первая «случайность» в случайном лесе — это случайная подвыборка, на которой обучается каждое дерево. А вторая — выбор наилучшего признака для каждого следующего разбиения в отдельном дереве также выбирается не из всех возможных, а из случайного набора меньшего размера (полный алгоритм можно посмотреть здесь в разделе «Алгоритм обучения классификатора»).
5️⃣ XGBoost, LightGBM, CatBoost 🐈
6️⃣ Деревья, в отличие от линейной регрессии, не умеют экстраполировать предсказания — то есть «продлевать» зависимость на значениях выборки вне тренировочной.
7️⃣ Случайный лес — это усредненные предсказания отдельных независимых деревьев. Поэтому если убрать одно дерево, среднее тоже по идее должно поменяться. Но за счёт того, что деревьев в «лесе» обычно много, удаление одного почти не повлияет на качество.
8️⃣ Бустинг тоже строится из отдельных деревьев, но они не являются независимыми, каждое следующее улучшает работу предыдущих. Поэтому если выбросить хотя бы одно дерево из этой системы, общее качество системы ухудшится.
Кстати, по данным аналитики hh август и раняя осень — лучшее время для поиска вакансий📊 Об этом чуть позже, а пока отдыхающим хорошего отпуска!🏖️
#карьера@data_easy
Итак, ответы на вопросы про деревья🌲🌳🌴
Кстати, по данным аналитики hh август и раняя осень — лучшее время для поиска вакансий
#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
EasyData
Привет, друзья!
В прошлом посте, посвящённом задачам с собеседований, обсудили с вами метрики классификации. Как показывает практика, вторая по популярности тема - про деревья и ансамбли над ними🌳🌲🌴
Почему так? Во-первых, бустинги - самые эффективные алгоритмы…
В прошлом посте, посвящённом задачам с собеседований, обсудили с вами метрики классификации. Как показывает практика, вторая по популярности тема - про деревья и ансамбли над ними🌳🌲🌴
Почему так? Во-первых, бустинги - самые эффективные алгоритмы…
👍10❤6🔥5
Всем привет!
Хочу поделиться ещё одной вышедшей статьёй — про трансферное обучение✨
По-другому этот приём в ML часто называют дообучение или использование предобученных моделей. При недостатке данных или ресурсов для обучения такой метод может сильно выручить и позволит достичь более высокого качества, чем при обычном обучении «с нуля».
И обязательно берите на заметку «хранилища» предобученных моделей и весов — в библиотеках PyTorch, TensorFlow, а также на HuggingFace и RoboFlow🌸 (ссылки и примеры кода есть в статье).
В конце ссылки на полезную литературу😊
Всем успехов!💐
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Хочу поделиться ещё одной вышедшей статьёй — про трансферное обучение
По-другому этот приём в ML часто называют дообучение или использование предобученных моделей. При недостатке данных или ресурсов для обучения такой метод может сильно выручить и позволит достичь более высокого качества, чем при обычном обучении «с нуля».
И обязательно берите на заметку «хранилища» предобученных моделей и весов — в библиотеках PyTorch, TensorFlow, а также на HuggingFace и RoboFlow
В конце ссылки на полезную литературу😊
Всем успехов!
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Transfer learning: подробный гайд для начинающих
Трансферное обучение, или Transfer Learning (TL) — это метод в машинном обучении, при котором модель, обученная для одной задачи, переиспользуется для другой, связанной задачи. Представим, что...
🔥10❤5👍4
С первым днём осени и днём знаний ! 🍂
Как мы помним, осень - самое продуктивное время года и лучшее время для поиска работы😉 Мир просыпается от сезона летних отпусков, и уже в сентябре можно созерцать несколько интересных ML-событий:
🔥 Во-первых, это Practical ML conf от Яндекс. Как всегда, анонсировано много технических докладов по всем DS-сферам.
Когда: 14 сентября.
Формат участия: очно в Москве + онлайн.
Регистрация: тут.
🔥 Во-вторых, обширная IT-конференция E-CODE от Ozon. Кстати, ожидаются выступления экспертов не только из DS.
Когда: 28-29 сентября (data science только 29-го).
Формат участия: очно в Москве + онлайн.
Регистрация: тут.
🔥 Для ищущих работу в аналитике Яндекс запускает очередной "1-2 day offer" - за выходные можно пройти все этапы собеседований и получить приглашение на работу.
Когда: 7-8 сентября.
Формат участия: онлайн.
Регистрация: тут (обратите внимание, что до 5-го сентября нужно решить задачи на платформе).
🔥 И ещё Тинькофф Т-банк открыл сезон осенних стажировок. Список направлений пополняется.
Регистрация: тут.
Любопытно, что в сети появилось довольно много платных конференций и митапов, анонс открытых мероприятий пока небогат:(
Но будем ждать😁 Пусть новый сезон принесет вам вдохновение, свежие идеи и много ярких моментов!🍁
Как мы помним, осень - самое продуктивное время года и лучшее время для поиска работы😉 Мир просыпается от сезона летних отпусков, и уже в сентябре можно созерцать несколько интересных ML-событий:
Когда: 14 сентября.
Формат участия: очно в Москве + онлайн.
Регистрация: тут.
Когда: 28-29 сентября (data science только 29-го).
Формат участия: очно в Москве + онлайн.
Регистрация: тут.
Когда: 7-8 сентября.
Формат участия: онлайн.
Регистрация: тут (обратите внимание, что до 5-го сентября нужно решить задачи на платформе).
Регистрация: тут.
Любопытно, что в сети появилось довольно много платных конференций и митапов, анонс открытых мероприятий пока небогат:(
Но будем ждать😁 Пусть новый сезон принесет вам вдохновение, свежие идеи и много ярких моментов!🍁
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
EasyData
Внимание всем стартующим в Data Science⚠️
Осень - самое продуктивное время в году (это подтверждено исследованиями, по статистике люди делают в первые 8 месяцев года столько же, сколько в последние 4🙃).
И на ближайший месяц компании уже приготовили план…
Осень - самое продуктивное время в году (это подтверждено исследованиями, по статистике люди делают в первые 8 месяцев года столько же, сколько в последние 4🙃).
И на ближайший месяц компании уже приготовили план…
❤14👍7 5
Привет, друзья!👋
Пора менять закреп — недавно я начала новый этап в своей карьере, теперь работаю Data Scientist'ом в WildBerries🛍 Занимаюсь разработкой рекомендательных систем, поэтому приходите с любой обратной связью и пожеланиями к сервису😁
Рекомендательные алгоритмы играют важную роль в работе маркетплейса. Система довольно сложная и комплексная, даже определить точное количество моделей — задача не из простых🙈
С приходом в компанию первое, что я для себя открыла — несколько полезных лайфхаков для поиска нужных товаров, не могу не поделиться ими с вами!
🍒Похожие товары🍒
Часто случается, что вы ищете какой-то товар, но никак не получается найти тот самый, нужного размера, цвета и формы...
В этом случае переходим на карточку примерно подходящего товара и в правом нижнем углу фото нажимаем на "похожие". Нас тут же перекидывает на страничку рекомендаций, среди которых может оказаться что-то подходящее.
🫐Сопутствующие товары🫐
Для тех, кто любит интересные идеи,но не смотрит группы "находки с WB". Вдохновиться можно, перейдя на страничку корзины, в самом низу будет лента "с этим покупают..." Это рекомендации, составленные напрямую к товарам, лежащим в вашей корзине, но сами они из других категорий. Например, если хочется что-то для дома, можно собрать корзину из нескольких товаров похожей тематики и полистать рекомендации
(эту функцию лучше тестировать с веб-версии на сайте).
🍓Похожие по фотографии🍓
Это новая классная фишка, о которой пока не все знают, позволяет по фотографии предмета найти такой же или максимально похожий среди всего ассортимента маркетплейса. Достаточно нажать на значок фотоаппарата в строке поиска и загрузить в сервис изображение.
Не прощаюсь с любимой темой данных, а впереди нас ждёт ещё больше полезных постов🐈
Спасибо, что остаётесь со мной!❤️
Пора менять закреп — недавно я начала новый этап в своей карьере, теперь работаю Data Scientist'ом в WildBerries
Рекомендательные алгоритмы играют важную роль в работе маркетплейса. Система довольно сложная и комплексная, даже определить точное количество моделей — задача не из простых🙈
С приходом в компанию первое, что я для себя открыла — несколько полезных лайфхаков для поиска нужных товаров, не могу не поделиться ими с вами!
🍒Похожие товары🍒
Часто случается, что вы ищете какой-то товар, но никак не получается найти тот самый, нужного размера, цвета и формы...
В этом случае переходим на карточку примерно подходящего товара и в правом нижнем углу фото нажимаем на "похожие". Нас тут же перекидывает на страничку рекомендаций, среди которых может оказаться что-то подходящее.
🫐Сопутствующие товары🫐
Для тех, кто любит интересные идеи,
(эту функцию лучше тестировать с веб-версии на сайте).
🍓Похожие по фотографии🍓
Это новая классная фишка, о которой пока не все знают, позволяет по фотографии предмета найти такой же или максимально похожий среди всего ассортимента маркетплейса. Достаточно нажать на значок фотоаппарата в строке поиска и загрузить в сервис изображение.
Не прощаюсь с любимой темой данных, а впереди нас ждёт ещё больше полезных постов
Спасибо, что остаётесь со мной!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17👍6🤩5👏3
Привет, друзья! 👋
Важные новости из мира искусственного интеллекта — OpenAI представила свою новую модель Chat GPT o1, которая специализируется на логических рассуждениях и сложных задачах. Относительно уже неплохого GPT-4 она сделала ещё более серьёзный шаг в сторону имитации человеческого мышления.
🤖Что особенного в “o1”?
В отличие от предыдущих версий, “o1” не сразу начинает печатать результат, а некоторое время “думает” над ответом. Под капотом модель декомпозирует задачу на несколько шагов, анализирует различные подходы и исправляет собственные ошибки в процессе. Это похоже на то, как мы сами решаем сложные проблемы — разбиваем их на части и пытаемся найти оптимальные решения. Новая версия уже продемонстрировала высокие результаты на тестах: например, в задачах по программированию на Codeforces “o1” превзошла 89% человек и набрала 83% на Международной математической олимпиаде 🔥
🤔Как это работает?
Ключ к успеху “o1” — алгоритм обучения через "цепочку мыслей". В обучающие данные были добавлены примеры ошибочных рассуждений с выходом из них. Благодаря этому модель умеет ставить под сомнение сгенерированное(да-да, в этой версии уже не будет уверенного доказательства “2+2=5”). В алгоритме применяются методы Reinforcement learning — обучения с подкреплением. Логично, но любопытно, что качество ответа повышается с ростом времени, затраченного моделью на рассуждения, это отличает её от других LLM. Но и вычислительных ресурсов нужно существенно больше по сравнению с тем же GPT4-o.
🧑💻Где протестировать?
По платной подписке на официальном ресурсе или обходными путями:) Мне удалось запустить через телеграм-бота Syntx AI: после запуска в меню нужно выбрать GPTs/Claude/Gemini, затем нажать на “Управление” и во всплывающем окне включить новую модель. Судя по тому, как “o1” из бота справилась со сложной задачкой на код по сравнению с GPT-4o, есть основания полагать, что она там настоящая😁
📎 Ссылка на официальный релиз.
Продолжаем следить за нейросетями, пока всё под контролем🧑💻
#nlp@data_easy
#полезный_ии@data_easy
Важные новости из мира искусственного интеллекта — OpenAI представила свою новую модель Chat GPT o1, которая специализируется на логических рассуждениях и сложных задачах. Относительно уже неплохого GPT-4 она сделала ещё более серьёзный шаг в сторону имитации человеческого мышления.
🤖Что особенного в “o1”?
В отличие от предыдущих версий, “o1” не сразу начинает печатать результат, а некоторое время “думает” над ответом. Под капотом модель декомпозирует задачу на несколько шагов, анализирует различные подходы и исправляет собственные ошибки в процессе. Это похоже на то, как мы сами решаем сложные проблемы — разбиваем их на части и пытаемся найти оптимальные решения. Новая версия уже продемонстрировала высокие результаты на тестах: например, в задачах по программированию на Codeforces “o1” превзошла 89% человек и набрала 83% на Международной математической олимпиаде 🔥
🤔Как это работает?
Ключ к успеху “o1” — алгоритм обучения через "цепочку мыслей". В обучающие данные были добавлены примеры ошибочных рассуждений с выходом из них. Благодаря этому модель умеет ставить под сомнение сгенерированное
🧑💻Где протестировать?
По платной подписке на официальном ресурсе или обходными путями:) Мне удалось запустить через телеграм-бота Syntx AI: после запуска в меню нужно выбрать GPTs/Claude/Gemini, затем нажать на “Управление” и во всплывающем окне включить новую модель. Судя по тому, как “o1” из бота справилась со сложной задачкой на код по сравнению с GPT-4o, есть основания полагать, что она там настоящая😁
📎 Ссылка на официальный релиз.
Продолжаем следить за нейросетями, пока всё под контролем
#nlp@data_easy
#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍3😍3
Всем доброго вечера!👋
На вопрос: "Какая самая популярная библиотека для анализа данных?" - большинство ответит: "Pandas". Однако, когда дело доходит до больших объёмов информации (порядка млн строк) или важна скорость работы - Pandas может оказаться не лучшим выбором❔
Ранее мы разбирали, как распараллелить операции на Pandas, но есть кое-что получше -✨ библиотека Polars✨ В WB часто ей пользуются, т.к. она действительно намного превосходит Pandas по скорости и эффективности. По синтаксису она где-то на ~70% похожа Pandas и ~30% на Pyspark, сравнение десяти самых важных операций ловите в карточках ❤️
Главные преимущества Polars:
✨ Написана на языке Rust, а он поддерживает многопоточность + использует память более эффективно.
✨ Polars поддерживает ленивые операции (Lazy Execution, эта же фича есть в pyspark ), что позволяет "откладывать" их выполнение до тех пор, пока не будет вызвана команда .collect(). Благодаря этому можно оптимизировать выполнение сразу нескольких шагов, минимизируя нагрузку на память и процессор.
✨ Основной недостаток Pandas - то что он обрабатывает данные последовательно. Polars же без дополнительных "танцев с бубнами" может использовать несколько ядер процессора параллельно.
✨ Ещё одно следствие из первого пункта: Polars гораздо меньше расходует память. За счёт этого он может работать с большими данными на уровне, который просто недостижим для Pandas.
🐈 Ссылка на официальную документацию
🐈 Репозиторий на GitHub
#аналитика@data_easy
#classic_ml@data_easy
На вопрос: "Какая самая популярная библиотека для анализа данных?" - большинство ответит: "Pandas". Однако, когда дело доходит до больших объёмов информации (порядка млн строк) или важна скорость работы - Pandas может оказаться не лучшим выбором
Ранее мы разбирали, как распараллелить операции на Pandas, но есть кое-что получше -
Главные преимущества Polars:
#аналитика@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✍7🔥7❤3👍2 1
В последнее время к каналу присоединилось довольно много новых подписчиков😊
Чтобы нам всем было проще общаться в одном месте, а не только в комментариях к постам - приглашаю присоединиться к чату канала https://yangx.top/+v1fdmoHV3JwyYTJi
Может, найдёте товарищей для хакатонов / друзей / будущих коллег😉
Чтобы нам всем было проще общаться в одном месте, а не только в комментариях к постам - приглашаю присоединиться к чату канала https://yangx.top/+v1fdmoHV3JwyYTJi
Может, найдёте товарищей для хакатонов / друзей / будущих коллег
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
EasyData-chat
Чат канала EasyData❤️
❤12🔥3