Привет! На связи создатель канала Рома Васильев и команда канала Start Career in DS 🙂
Мы хотим узнать о вас больше и понять какие материалы вам действительно будет интересно читать, поэтому мы подготовили для вас небольшой опрос. Опрос займет не более минуты, ждем ваших голосов и комментриев👇
Мы хотим узнать о вас больше и понять какие материалы вам действительно будет интересно читать, поэтому мы подготовили для вас небольшой опрос. Опрос займет не более минуты, ждем ваших голосов и комментриев👇
❤8
Какой у вас уровень в Data Science?
Anonymous Poll
51%
Ищу работу в DS/учусь
8%
Стажер
17%
Джун
18%
Мидл
7%
Сеньор
3%
Тим-лид
2%
Head of …
5%
Другое (напишу в комментариях)
❤4
Какой формат материалов вам сейчас наиболее интересен?
Anonymous Poll
65%
Статьи и посты на технические темы
21%
Статьи по soft-skills
23%
Интерактивные квизы и тесты
33%
Ссылки на полезные каналы
49%
Рекомендации курсов
60%
Видеоуроки и лекции
53%
Памятки и шпаргалки
38%
Книги
1%
Другое (напишу в комментариях)
❤4🔥1
На какую тематику сейчас вы бы хотели читать посты?
Anonymous Poll
46%
Классический Deep Learning
61%
Классический Machine Learning
31%
Computer Vision
59%
Математика/статистика/теорвер
39%
NLP
31%
Advanced LLM
24%
Reinforcement Learning
17%
Soft-skills
39%
Инструменты для анализа данных
2%
Другое (напишу в комментариях)
❤2👍1
Как вы относитесь к оффлайн мероприятиям? (территориально Москва)
Anonymous Poll
38%
Да, готов участвовать!
21%
Хочу участвовать в онлайн мероприятиях
12%
Не интересны мероприятия вообще
46%
Живу в другом городе
2%
Другое (напишу в комментариях)
❤6❤🔥1
ℹ️ Всё про токенизацию и токенизаторы в языковых моделях
❕Токен - это минимальная единица текста, с которой работают современные языковые модели. В качестве токена могут выступать как полноценные слова, так и части слов, слоги или отдельные символы.
✂️ Например, в некоторых моделях слово «привет» может разбиваться на токены: [«при», «вет»].
❕Токенизация — процесс предобработки входного текста в список токенов. Обычно далее каждый токен векторизуется и весь этот массив векторов подаётся модели на вход, с чем она начинает работать.
🤯 В моделях Transformer токенизаторы обучаемы. Обучение токенизаторов не схоже с тем, как обучаются ML-модели, наоборот, это статистический процесс, который определяет, какие сочетания символов (подслов, слов) лучше всего выбрать для корпуса текста, с которым мы работаем.
🔝Современные токенизаторы можно разделить по следующим видам:
1. Byte-Pair Encoding (используется в GPT-like моделях, обучается слиянием символов из основного корпуса, выбирая пары по наибольшей частоте встречаемости, подробно про алгоритм и реализацию кода обучения читайте тут)
2. WordPiece (используется преимущественно в BERT-like моделях, также обучается слиянием, но используется не частота встречаемости, а более универсальная формула, также подробно читайте про реализацию и формулу тут)
3. Unigram (не так применим, однако, для полноты картины читайте о нем тут)
❗️Почему это важно:
1️⃣ Фертильность (мера, показывающая среднее количество токенов на одно слово после токенизации предложения):
Напрямую влияет на стоимость использования любой модели: больше токенов после токенизации предложения -> больше входная последовательность в LLM -> больше стоимость.
2️⃣ Качество работы:
Правильно токенизированная последовательность также сильно влияет на качество модели из-за появления символов, которых модель не видела или из-за особенностей некоторых языков, где нет, например, пробелов.
Очень грамотно и подробно этот нюанс описан тут.
3️⃣ Скорость работы:
Следствие из первого пункта: чем больше последовательность токенов, тем больше вычислений стоит делать, что также влияет на скорость ответа модели.
🔥 Дополнительная информация по теме:
- Краткий обзор токенизаторов на Хабре
- О токенизаторах с NLP-курса на Hugging Face
- «Насколько хорош Ваш Токенайзер» - статья на arxiv [ENG]
- Статья на английском для начинающих о токенах в LLM [ENG]
Теперь вы знаете, как работают токенизаторы🔥
Ждём ваших лайков и обратной связи❤️
До встречи👋🏻
❕Токен - это минимальная единица текста, с которой работают современные языковые модели. В качестве токена могут выступать как полноценные слова, так и части слов, слоги или отдельные символы.
✂️ Например, в некоторых моделях слово «привет» может разбиваться на токены: [«при», «вет»].
❕Токенизация — процесс предобработки входного текста в список токенов. Обычно далее каждый токен векторизуется и весь этот массив векторов подаётся модели на вход, с чем она начинает работать.
🤯 В моделях Transformer токенизаторы обучаемы. Обучение токенизаторов не схоже с тем, как обучаются ML-модели, наоборот, это статистический процесс, который определяет, какие сочетания символов (подслов, слов) лучше всего выбрать для корпуса текста, с которым мы работаем.
🔝Современные токенизаторы можно разделить по следующим видам:
1. Byte-Pair Encoding (используется в GPT-like моделях, обучается слиянием символов из основного корпуса, выбирая пары по наибольшей частоте встречаемости, подробно про алгоритм и реализацию кода обучения читайте тут)
2. WordPiece (используется преимущественно в BERT-like моделях, также обучается слиянием, но используется не частота встречаемости, а более универсальная формула, также подробно читайте про реализацию и формулу тут)
3. Unigram (не так применим, однако, для полноты картины читайте о нем тут)
❗️Почему это важно:
1️⃣ Фертильность (мера, показывающая среднее количество токенов на одно слово после токенизации предложения):
Напрямую влияет на стоимость использования любой модели: больше токенов после токенизации предложения -> больше входная последовательность в LLM -> больше стоимость.
2️⃣ Качество работы:
Правильно токенизированная последовательность также сильно влияет на качество модели из-за появления символов, которых модель не видела или из-за особенностей некоторых языков, где нет, например, пробелов.
Очень грамотно и подробно этот нюанс описан тут.
3️⃣ Скорость работы:
Следствие из первого пункта: чем больше последовательность токенов, тем больше вычислений стоит делать, что также влияет на скорость ответа модели.
🔥 Дополнительная информация по теме:
- Краткий обзор токенизаторов на Хабре
- О токенизаторах с NLP-курса на Hugging Face
- «Насколько хорош Ваш Токенайзер» - статья на arxiv [ENG]
- Статья на английском для начинающих о токенах в LLM [ENG]
Теперь вы знаете, как работают токенизаторы🔥
Ждём ваших лайков и обратной связи❤️
До встречи👋🏻
🔥32❤9❤🔥7👍4
▶️ Продолжение серии видео от 3Blue1Brown про нейронные сети!
Ранее мы уже писали про серию их постов, переведённую на русский язык, там были видео про работу нейронных сетей в целом, градиентный спуск и обратное распространение ошибки.
Ребята в комментариях дополнили, что у 3B1B на английском есть ещё 3 видео!
Дополняем свою подборку ими. Кроме того, у этих видео есть весьма качественный русский дубляж 🙂
[ENG + RUS] Transformers (how LLMs work) explained visually | DL5
Объясняет что происходит внутри трансформера в начале и в конце обучения. Показывает геометрическое представаление эмбеддинга слов в многомерном пространстве
[ENG + RUS] Attention in transformers, visually explained | DL6
Иллюстрация работы механизмов внимания на примере простого предложения. Показывает взаимодействие эмбеддингов слов в предложении между собой и разницу между self-attention и cross-attention
[ENG + RUS] How might LLMs store facts | DL7
Как устроены многослойные перцептроны. Понятная иллюстрация того, как модель сохраняет факты
Ждём ваших ❤️ и 🔥!
Ранее мы уже писали про серию их постов, переведённую на русский язык, там были видео про работу нейронных сетей в целом, градиентный спуск и обратное распространение ошибки.
Ребята в комментариях дополнили, что у 3B1B на английском есть ещё 3 видео!
Дополняем свою подборку ими. Кроме того, у этих видео есть весьма качественный русский дубляж 🙂
[ENG + RUS] Transformers (how LLMs work) explained visually | DL5
Объясняет что происходит внутри трансформера в начале и в конце обучения. Показывает геометрическое представаление эмбеддинга слов в многомерном пространстве
[ENG + RUS] Attention in transformers, visually explained | DL6
Иллюстрация работы механизмов внимания на примере простого предложения. Показывает взаимодействие эмбеддингов слов в предложении между собой и разницу между self-attention и cross-attention
[ENG + RUS] How might LLMs store facts | DL7
Как устроены многослойные перцептроны. Понятная иллюстрация того, как модель сохраняет факты
Ждём ваших ❤️ и 🔥!
❤24🔥10👍1
🥷🏻 ML-System Design: справочник материалов для подготовки
❗️ML System Design - один из важнейших этапов на собеседовании в топовую компанию. Строить грамотные ML-решения хочет каждый, и поэтому мы подготовили для вас общий справочник со всей актуальной информацией по данной теме.
🔥Погнали:
- Пошаговая методичка на GitHub, как правильно дизайнить ML-решения
- Ещё один репозиторий с интересным фреймворком и примерами решений ML System Design кейсов
- Огромная база знаний с описанием +500 реальных ML и LLM кейсов из мировых BigTech компаний, сможете прокачать экспертизу и набраться новых подходов
- Большой набор ТГ-постов от Саши Исакова по каждому этапу DS-собеседований, включая ML System Design
- Курс видеолекций на ODS по ML System Design с нуля
- Научиться писать ML System Design Docs можете тут, а познакомиться с тем, что вообще такое дизайн-документ тут
- Статья на Хабре «Как деплоить и тестировать модели в продакшне» - важный этап в процессе MLSD
- Серия постов для подготовки к DS-собеседованиям, с отдельной частью про System Design, включая большое количество дополнительных материалов и книг
- Статья для новичков «Чтобы я хотел знать про ML System Design раньше»
- Большой плейлист на YouTube с собеседованиями от karpov.courses, включая мок-собеседования по ML System Design с Валерием Бабушкиным
👇🏻Также призываем в комментариях делиться актуальными материалами по данной теме!
Ставьте ❤️ и 🔥 за крутой пост!
До встречи👋
❗️ML System Design - один из важнейших этапов на собеседовании в топовую компанию. Строить грамотные ML-решения хочет каждый, и поэтому мы подготовили для вас общий справочник со всей актуальной информацией по данной теме.
🔥Погнали:
- Пошаговая методичка на GitHub, как правильно дизайнить ML-решения
- Ещё один репозиторий с интересным фреймворком и примерами решений ML System Design кейсов
- Огромная база знаний с описанием +500 реальных ML и LLM кейсов из мировых BigTech компаний, сможете прокачать экспертизу и набраться новых подходов
- Большой набор ТГ-постов от Саши Исакова по каждому этапу DS-собеседований, включая ML System Design
- Курс видеолекций на ODS по ML System Design с нуля
- Научиться писать ML System Design Docs можете тут, а познакомиться с тем, что вообще такое дизайн-документ тут
- Статья на Хабре «Как деплоить и тестировать модели в продакшне» - важный этап в процессе MLSD
- Серия постов для подготовки к DS-собеседованиям, с отдельной частью про System Design, включая большое количество дополнительных материалов и книг
- Статья для новичков «Чтобы я хотел знать про ML System Design раньше»
- Большой плейлист на YouTube с собеседованиями от karpov.courses, включая мок-собеседования по ML System Design с Валерием Бабушкиным
👇🏻Также призываем в комментариях делиться актуальными материалами по данной теме!
Ставьте ❤️ и 🔥 за крутой пост!
До встречи👋
GitHub
Machine-Learning-Interviews/src/MLSD/ml-system-design.md at main · alirezadir/Machine-Learning-Interviews
This repo is meant to serve as a guide for Machine Learning/AI technical interviews. - alirezadir/Machine-Learning-Interviews
❤41🔥18👍6
Собрали для вас подборку исследований связанных DS и ключевые инсайты из них👇
💻 Условия работы:
- Исследование рынка аналитиков 2023 года от NEW HR:
▪️ топ компаний для трудоустройства: Яндекс, Авито, Авиасейлс
▪️ всего 3% хотят сменить сферу, большинство хочет развиваться внутри аналитики: расти по грейду, стать экспертом, сменить работодателя и т. д.
- Исследование релокации IT-специалистов 2022-2024 всех, не только аналитиков, тоже от NEW HR:
▪️ каждый 3-й релокант работает в отчасти российских компаниях (связаны с РФ, но работают за рубежом)
▪️ «релокацию оплачиает работодатель» - миф: 2/3 опрошенных, уезжавших из России, перемещались за свой счёт
🎓 Обучение:
- Независимое исследование онлйна курсов по аналитике от Left Join: сравнение популярных и не очень курсов по аналитике
▪️ топ платформы для обучения - Яндекс Практикум и Karpov.Courses
- Портрет специалистов, работающих в DS/ML/AI-направлении от DevCrowd, в исследовании есть большая подборка полезных книг, курсов, подкастов и Telegram-каналов по теме DS
▪️ 47% респондентов хотят улучшить свои знания фундаментальной математики
▪️ каждый третий обучился своей профессии самостоятельно
💭Ещё интересные исследования:
- За кем следят продуктовые и дата-аналитики от NEW HR: список самых часто упоминаемых экспертов. Весь список тут
▪️ топ-3 экспертов: Карпов Анатолий, Бунин Роман, Бабушкин Валерий
- ИТМО провел исследование ML/Data Open Source решений в России: какие компании лидируют, какие проблемы и перспективы есть у инструментов
▪️ лидеры в разработке собственных открытых решений: Яндекс, Сбер, Т-Банк
▪️ почти все компании-разработчики открытых решений в Data/ML находят пользователей не только на внутреннем, но и на международном рынке
Ждем ваших 🔥 и ❤️!
💻 Условия работы:
- Исследование рынка аналитиков 2023 года от NEW HR:
▪️ топ компаний для трудоустройства: Яндекс, Авито, Авиасейлс
▪️ всего 3% хотят сменить сферу, большинство хочет развиваться внутри аналитики: расти по грейду, стать экспертом, сменить работодателя и т. д.
- Исследование релокации IT-специалистов 2022-2024 всех, не только аналитиков, тоже от NEW HR:
▪️ каждый 3-й релокант работает в отчасти российских компаниях (связаны с РФ, но работают за рубежом)
▪️ «релокацию оплачиает работодатель» - миф: 2/3 опрошенных, уезжавших из России, перемещались за свой счёт
🎓 Обучение:
- Независимое исследование онлйна курсов по аналитике от Left Join: сравнение популярных и не очень курсов по аналитике
▪️ топ платформы для обучения - Яндекс Практикум и Karpov.Courses
- Портрет специалистов, работающих в DS/ML/AI-направлении от DevCrowd, в исследовании есть большая подборка полезных книг, курсов, подкастов и Telegram-каналов по теме DS
▪️ 47% респондентов хотят улучшить свои знания фундаментальной математики
▪️ каждый третий обучился своей профессии самостоятельно
💭Ещё интересные исследования:
- За кем следят продуктовые и дата-аналитики от NEW HR: список самых часто упоминаемых экспертов. Весь список тут
▪️ топ-3 экспертов: Карпов Анатолий, Бунин Роман, Бабушкин Валерий
- ИТМО провел исследование ML/Data Open Source решений в России: какие компании лидируют, какие проблемы и перспективы есть у инструментов
▪️ лидеры в разработке собственных открытых решений: Яндекс, Сбер, Т-Банк
▪️ почти все компании-разработчики открытых решений в Data/ML находят пользователей не только на внутреннем, но и на международном рынке
Ждем ваших 🔥 и ❤️!
🔥22❤19
🤖 Собрали для вас несколько роадмэпов по разным областям: Data Analyst, AI and Data Scientist, A/B Testing RoadMap, SQL, Python
Каждый из них содерджит последовательность областей, которые стоит изучить, что начать разбираться в соответствующей профессии
Python Developer - Step by step guide to becoming a Python developer in 2024
SQL Roadmap - Step by step guide to learning SQL in 2024
AI and Data Scientist - Step by step guide to becoming an AI and Data Scientist in 2024
Data Analyst Roadmap - Step by step guide to becoming an Data Analyst in 2024
A/B Testing RoadMap - Пошаговое руководство по проведению А/Б-тестов
Ставьте 🔥 если хотите общий roadmap по Data Science от нашего канала!
Каждый из них содерджит последовательность областей, которые стоит изучить, что начать разбираться в соответствующей профессии
Python Developer - Step by step guide to becoming a Python developer in 2024
SQL Roadmap - Step by step guide to learning SQL in 2024
AI and Data Scientist - Step by step guide to becoming an AI and Data Scientist in 2024
Data Analyst Roadmap - Step by step guide to becoming an Data Analyst in 2024
A/B Testing RoadMap - Пошаговое руководство по проведению А/Б-тестов
Ставьте 🔥 если хотите общий roadmap по Data Science от нашего канала!
roadmap.sh
Learn to become a modern Python developer
Community driven, articles, resources, guides, interview questions, quizzes for python development. Learn to become a modern Python developer by following the steps, skills, resources and guides listed in this roadmap.
🔥66❤13👍6❤🔥2
Всем привет! Хотим посоветовать вам канал Макса @zasql_python - продуктового аналитика в Яндекс Лавке. В своем блоге он пишет про различные интересные вещи, связанные с ML, A/B тестами + старается актуализировать трек обучения для вкатышей в аналитику / DS. Вот, например, его пост с роадмапом в продуктовой аналитике 🥰
Также выходила достаточно интересная серия постов с A/B и различными методами оценки результатов:
1. Хэш с солью
2. Выбросы в A/B тестах
3. Causal Inference, Propensity Score Matching...
4. Как доверительные интервалы могут решать задачи бизнеса
Относительно недавно он запустил формат, в котором каждую неделю подписчики могут сами выбирать какой пост будет на следующей неделе. Если вам это откликнулось, подписывайтесь, здесь много всего интересного
Также выходила достаточно интересная серия постов с A/B и различными методами оценки результатов:
1. Хэш с солью
2. Выбросы в A/B тестах
3. Causal Inference, Propensity Score Matching...
4. Как доверительные интервалы могут решать задачи бизнеса
Относительно недавно он запустил формат, в котором каждую неделю подписчики могут сами выбирать какой пост будет на следующей неделе. Если вам это откликнулось, подписывайтесь, здесь много всего интересного
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Заскуль питона (Data Science)
Как бы я сейчас построил свое обучение в продуктовой аналитике / аналитике данных?
👁 Если вы ждали этот пост, ставьте реакции, пишите комментарии. В следующем посте расскажу о своих планах на ближайший год
Всем привет! Сегодня напишу о том, что бы я изменил…
👁 Если вы ждали этот пост, ставьте реакции, пишите комментарии. В следующем посте расскажу о своих планах на ближайший год
Всем привет! Сегодня напишу о том, что бы я изменил…
👍9❤6🔥1🤩1
📊 Как оценивать LLM: метрики [Ч.1]
🤖 Оценка языковых моделей также необходима, как и при работе с классическими ML-моделями. Однако, в случае с LLM задача усложняется тем, что мы должны оценивать текстовые данные.
💯 В этой части поста мы расскажем про наиболее популярные NLP-метрики для оценки языковых моделей, а уже в следующем посте поговорим про более продвинутые техники, включая бенчмарки.
❓ А в чем, собственно, отличие между метриками и бенчмарками:
Метрики - используются для измерения конкретных навыков аспектов работы модели (например, точность перевода с русского на английский) или могут использоваться, как часть бенчмарка.
Бенчмарки же — это наборы тестов, которые обычно включают множество задач и способов их оценок (метрик). Бенчмарки дают более масштабную оценку качества работы моделей, не в рамках отдельной задачи.
Поговорим про статистические метрики:
1️⃣ Перплексия:
Перплексия показывает, насколько точно модель предсказывает следующий токен: чем ниже значение, тем уверенее предсказание.
Например, если перплексия равна 1000, это означает, что модель в среднем имеет 1000 равновероятных вариантов для каждого следующего слова, что указывает на плохое качество предсказаний. Через перплексию в LLM можно определить галлюцинации, хоть и сама метрика не всегда коррелирует с качеством генерации текста.
Более подробно про перплексию и формулу данной меры читайте тут.
2️⃣ BLEU и ROUGE:
О данных метриках мы писали в одном из вопросов недавнего квиза (п.5) и оставляли хорошие материалы для изучения, советуем вернуться и ознакомиться.
3️⃣ METEOR:
Данная метрика создавалась, как улучшенная альтернатива BLEU, которая учитывает не только точное совпадение слов в сгенерированном тексте с эталонными примерами, но и их синонимы и морфологические варианты, что делает её более гибкой и устойчивой к разнообразным формулировкам. В добавок, метрика выдает штраф за неправильную фрагментацию текста и неверный порядок слов. Подробно про методику расчет METEOR смотрите в этом видео.
4️⃣ Классические ML-метрики:
Оценивать текст можно также, как и числа, используя ML-метрики. Например, посчитать количество слов (токенов) в сгенерированном примере, вошедшие в эталонный пример - accuracy. Или посчитать recall через количество слов, вошедшие в эталонный пример (TP), но, учитывая недостающие токены (FN).
Теперь поговорим про model-based метрики:
5️⃣ BERTScore:
Данная метрика в процессе расчета использует BERT-модели, чтобы через векторные представления слов в предложении оценивать схожесть текстов. Кратко процесс оценки выглядит следующим образом: получение эмбеддингов для каждого слова в сгенерированном и эталонном текстах с помощью BERT. И затем (в упрощенном виде) по косинусному сходству токены из сгенерированного текста сопоставляются с токенами эталонного текста, после чего высчитывается Recall-BERT, Precision-BERT F-BERT. Более детально про архитектуру подсчета BERTScore читайте тут.
6️⃣ G-Eval:
G-Eval (Generative Evaluation) создан для того, чтобы преодолеть ограничения статистических метрик (неустойчивость к формулировкам, разные длины сравниваемых текстов, непренимость к сложным задачам). В G-Eval в виде оценщика используются другие GPT-модели, например, GPT-4 от OpenAI. Оценка проводится через сравнительный анализ сгенерированного текста и эталонного примера по заранее выбранным критериям (согласованность, точность и т.д.).
🔥 Однако, это не весь список метрик, с помощью которых можно оценивать LLM, дополнительно читайте тут:
- Серия постов на Хабре про эволюцию NLP-метрик
- Ещё две статьи тут и тут про метрики, фреймворки и лучшие практики для оценки LLM.
- Отличная статья для погружения в бечнмаркинг LLM
- Статья с объяснением подхода "LLM-as-a-Judge" (LLM, как судья) [ENG]
- Evaluating-Cookbook - руководство по оценке LLM, созданное командой Hugging Face.
Ставьте ❤️ и 🔥 под постом!
Также пишите свои комментарии и вопросы! До встречи👋
🤖 Оценка языковых моделей также необходима, как и при работе с классическими ML-моделями. Однако, в случае с LLM задача усложняется тем, что мы должны оценивать текстовые данные.
💯 В этой части поста мы расскажем про наиболее популярные NLP-метрики для оценки языковых моделей, а уже в следующем посте поговорим про более продвинутые техники, включая бенчмарки.
❓ А в чем, собственно, отличие между метриками и бенчмарками:
Метрики - используются для измерения конкретных навыков аспектов работы модели (например, точность перевода с русского на английский) или могут использоваться, как часть бенчмарка.
Бенчмарки же — это наборы тестов, которые обычно включают множество задач и способов их оценок (метрик). Бенчмарки дают более масштабную оценку качества работы моделей, не в рамках отдельной задачи.
Поговорим про статистические метрики:
1️⃣ Перплексия:
Перплексия показывает, насколько точно модель предсказывает следующий токен: чем ниже значение, тем уверенее предсказание.
Например, если перплексия равна 1000, это означает, что модель в среднем имеет 1000 равновероятных вариантов для каждого следующего слова, что указывает на плохое качество предсказаний. Через перплексию в LLM можно определить галлюцинации, хоть и сама метрика не всегда коррелирует с качеством генерации текста.
Более подробно про перплексию и формулу данной меры читайте тут.
2️⃣ BLEU и ROUGE:
О данных метриках мы писали в одном из вопросов недавнего квиза (п.5) и оставляли хорошие материалы для изучения, советуем вернуться и ознакомиться.
3️⃣ METEOR:
Данная метрика создавалась, как улучшенная альтернатива BLEU, которая учитывает не только точное совпадение слов в сгенерированном тексте с эталонными примерами, но и их синонимы и морфологические варианты, что делает её более гибкой и устойчивой к разнообразным формулировкам. В добавок, метрика выдает штраф за неправильную фрагментацию текста и неверный порядок слов. Подробно про методику расчет METEOR смотрите в этом видео.
4️⃣ Классические ML-метрики:
Оценивать текст можно также, как и числа, используя ML-метрики. Например, посчитать количество слов (токенов) в сгенерированном примере, вошедшие в эталонный пример - accuracy. Или посчитать recall через количество слов, вошедшие в эталонный пример (TP), но, учитывая недостающие токены (FN).
Теперь поговорим про model-based метрики:
5️⃣ BERTScore:
Данная метрика в процессе расчета использует BERT-модели, чтобы через векторные представления слов в предложении оценивать схожесть текстов. Кратко процесс оценки выглядит следующим образом: получение эмбеддингов для каждого слова в сгенерированном и эталонном текстах с помощью BERT. И затем (в упрощенном виде) по косинусному сходству токены из сгенерированного текста сопоставляются с токенами эталонного текста, после чего высчитывается Recall-BERT, Precision-BERT F-BERT. Более детально про архитектуру подсчета BERTScore читайте тут.
6️⃣ G-Eval:
G-Eval (Generative Evaluation) создан для того, чтобы преодолеть ограничения статистических метрик (неустойчивость к формулировкам, разные длины сравниваемых текстов, непренимость к сложным задачам). В G-Eval в виде оценщика используются другие GPT-модели, например, GPT-4 от OpenAI. Оценка проводится через сравнительный анализ сгенерированного текста и эталонного примера по заранее выбранным критериям (согласованность, точность и т.д.).
🔥 Однако, это не весь список метрик, с помощью которых можно оценивать LLM, дополнительно читайте тут:
- Серия постов на Хабре про эволюцию NLP-метрик
- Ещё две статьи тут и тут про метрики, фреймворки и лучшие практики для оценки LLM.
- Отличная статья для погружения в бечнмаркинг LLM
- Статья с объяснением подхода "LLM-as-a-Judge" (LLM, как судья) [ENG]
- Evaluating-Cookbook - руководство по оценке LLM, созданное командой Hugging Face.
Ставьте ❤️ и 🔥 под постом!
Также пишите свои комментарии и вопросы! До встречи👋
❤17👍7🔥6
Собрали для вас курсы степика, которые могу пригодиться начинающим и продолжающим) Есть как бесплатные так и платные, но доступные по цене
🐍 Python
Поколение Python - первый курс из линейки по изучению питона с нуля с множеством задач для тренировки написания кода
Добрый, добрый Python - курс для начинающих и для тех, кто уже знаком с Python, но хотел бы повысить/проверить свой уровень
Программирование на Python - вводный курс по питону от Института биоинформатики
Python: основы и применение - курс по питону для продолжающих, тоже от Института биоинформатики
📊 SQL
Интерактивный тренажер по SQL - практика написания SQL-запросов с минимумом теории, сложность возрастает по мере прохождения курса
SQL База - основы SQL от Left Join
Основы SQL - обучение SQL с нуля на примере MySQL
Продвинутый SQL - сложные запросы, транзакции, тригеры и оконных функций в MySQL
⚛️ ML/DL
Deep Learning (семестр 1, осень 2024) и Deep Learning (семестр 2, осень 2024): бесплатный двухсеместровый курс по глубокому обучению от МФТИ
Машинное Обучение в Python - требуется только базовое знание Python, математика добавляется постепенно, поэтому курс подойдет для начинающих
Добрый, добрый ИИ от Сергея Балакирева - первые шаги в ML, нужны знания математики и Python
Нейронные сети и обработка текста - для тех, кто уже имеет базу в ML и хочет научиться применять нейронные сети для решения задач NLP
➕ Math
Математика для всех от Савватеева - курс поможет разобраться в математической логике и механизмах работы математики
Ликбез по дискретной математике - обзорный курс по дискретной математике
Линейная алгебра - краткое изложение основ линейной алгебры
Теория вероятностей - базовыме понятия теории вероятностей, много примеров и задач
Основы статистики от Карпова - база в статистике, уже неоднократно писали про этот курс в канале
Добрая теория вероятностей от Балакирева - школьная база по теории вероятности
Ждём ваших ❤️ и 🔥! Делитесь в комментариях какие курсы проходили вы и можете порекомендовать 🧑🏫
🐍 Python
Поколение Python - первый курс из линейки по изучению питона с нуля с множеством задач для тренировки написания кода
Добрый, добрый Python - курс для начинающих и для тех, кто уже знаком с Python, но хотел бы повысить/проверить свой уровень
Программирование на Python - вводный курс по питону от Института биоинформатики
Python: основы и применение - курс по питону для продолжающих, тоже от Института биоинформатики
📊 SQL
Интерактивный тренажер по SQL - практика написания SQL-запросов с минимумом теории, сложность возрастает по мере прохождения курса
SQL База - основы SQL от Left Join
Основы SQL - обучение SQL с нуля на примере MySQL
Продвинутый SQL - сложные запросы, транзакции, тригеры и оконных функций в MySQL
⚛️ ML/DL
Deep Learning (семестр 1, осень 2024) и Deep Learning (семестр 2, осень 2024): бесплатный двухсеместровый курс по глубокому обучению от МФТИ
Машинное Обучение в Python - требуется только базовое знание Python, математика добавляется постепенно, поэтому курс подойдет для начинающих
Добрый, добрый ИИ от Сергея Балакирева - первые шаги в ML, нужны знания математики и Python
Нейронные сети и обработка текста - для тех, кто уже имеет базу в ML и хочет научиться применять нейронные сети для решения задач NLP
➕ Math
Математика для всех от Савватеева - курс поможет разобраться в математической логике и механизмах работы математики
Ликбез по дискретной математике - обзорный курс по дискретной математике
Линейная алгебра - краткое изложение основ линейной алгебры
Теория вероятностей - базовыме понятия теории вероятностей, много примеров и задач
Основы статистики от Карпова - база в статистике, уже неоднократно писали про этот курс в канале
Добрая теория вероятностей от Балакирева - школьная база по теории вероятности
Ждём ваших ❤️ и 🔥! Делитесь в комментариях какие курсы проходили вы и можете порекомендовать 🧑🏫
❤58🔥29
🎉🎄Новогодний квиз на «Start Career in DS»
🎅🏼Дорогие подписчики, вся команда нашего прекрасного канала от всей души поздравляет Вас с наступающим Новым годом и желает в 2025 году достичь всех поставленных целей.
🌟Также в преддверии праздника мы рады объявить о «Новогоднем квизе» на нашем канале, и, желая порадовать своих подписчиков, мы подготовили интересные вопросы и кучу подарков.
❗️Правила «Новогоднего квиза»:
⭕️ Квиз будет состоять из двух частей: ответы на вопросы по нашему каналу и общие вопросы по Machine Learning.
⭕️ Собственные ответы необходимо оставлять в комментариях под постом
⭕️ Верные ответы будут прикреплены в комментариях под каждым постом через 24 часа после его публикации
⭕️ Ответ засчитывается при схожести с нашими заготовленными ответами
⭕️ Мы также учитываем скорость ответа: более ранний ответ будет иметь больший вес, если мы столкнёмся с одинаковым количеством верных ответов нескольких участников
Как участвовать:
1️⃣ Следите за постами в течение текущей недели
2️⃣ Для участия достаточно ответить на вопросы хотя бы в рамках одного поста
3️⃣ Свои ответы опубликуй в комментариях под постом
4️⃣ Готово! Ты - участник нашего «Новогоднего квиза»!
🎁 Выбор победителей и призы:
🎲 Один счастливчик будет выбран случайным образом и сможет забрать полугодовую подписку ТГ-премиум!
🧠 И ещё три победителя будут выбраны по максимальному количеству набранных баллов в ответах
🎁 Каждый из победителей фиксировано получит одну из книг по Data Science:
1. "Практическая статистика для специалистов Data Science"
2. "Грокаем глубокое обучение"
3. "Математические основы Машинного обучения"
Ставьте ❤️ и 🔥 если ждете запуска «Новогоднего квиза»!
🎅🏼Дорогие подписчики, вся команда нашего прекрасного канала от всей души поздравляет Вас с наступающим Новым годом и желает в 2025 году достичь всех поставленных целей.
🌟Также в преддверии праздника мы рады объявить о «Новогоднем квизе» на нашем канале, и, желая порадовать своих подписчиков, мы подготовили интересные вопросы и кучу подарков.
❗️Правила «Новогоднего квиза»:
⭕️ Квиз будет состоять из двух частей: ответы на вопросы по нашему каналу и общие вопросы по Machine Learning.
⭕️ Собственные ответы необходимо оставлять в комментариях под постом
⭕️ Верные ответы будут прикреплены в комментариях под каждым постом через 24 часа после его публикации
⭕️ Ответ засчитывается при схожести с нашими заготовленными ответами
⭕️ Мы также учитываем скорость ответа: более ранний ответ будет иметь больший вес, если мы столкнёмся с одинаковым количеством верных ответов нескольких участников
Как участвовать:
1️⃣ Следите за постами в течение текущей недели
2️⃣ Для участия достаточно ответить на вопросы хотя бы в рамках одного поста
3️⃣ Свои ответы опубликуй в комментариях под постом
4️⃣ Готово! Ты - участник нашего «Новогоднего квиза»!
🎁 Выбор победителей и призы:
🎲 Один счастливчик будет выбран случайным образом и сможет забрать полугодовую подписку ТГ-премиум!
🧠 И ещё три победителя будут выбраны по максимальному количеству набранных баллов в ответах
🎁 Каждый из победителей фиксировано получит одну из книг по Data Science:
1. "Практическая статистика для специалистов Data Science"
2. "Грокаем глубокое обучение"
3. "Математические основы Машинного обучения"
Ставьте ❤️ и 🔥 если ждете запуска «Новогоднего квиза»!
❤46🔥9👍7
🎊🎄«Новогодний квиз» [Ч.1]
Вопросы о нашем канале за последний год:
1️⃣ Сколько постов на нашем канале вышло за 2024 год?
2️⃣ Какой пост в 2024 году на нашем канале набрал больше всего просмотров?
3️⃣ Сколько в 2024 году было проведено квизов на нашем канале, и сколько человек получили в них призы?
🤪 Для верных ответов придётся немного поисследовать наш канал
👇🏻 Ждём ваших ответов в комментариях под данным постом!
Также ждём ваших реакций ❤️ и 🔥под постом!
Вопросы о нашем канале за последний год:
1️⃣ Сколько постов на нашем канале вышло за 2024 год?
2️⃣ Какой пост в 2024 году на нашем канале набрал больше всего просмотров?
3️⃣ Сколько в 2024 году было проведено квизов на нашем канале, и сколько человек получили в них призы?
🤪 Для верных ответов придётся немного поисследовать наш канал
👇🏻 Ждём ваших ответов в комментариях под данным постом!
Также ждём ваших реакций ❤️ и 🔥под постом!
🔥12❤3
🎄🪄«Новогодний квиз» [Ч.2]
Общие вопросы по Machine Learning:
1️⃣ Почему в линейных ML-моделях переобучение отождествляется с высокими абсолютными значениями весов?
2️⃣ Что такое data leakage? И какие существуют способы его избежать?
3️⃣ Какие существуют алгоритмы оптимизации гиперпараметров в ML-моделях? Кратко опишите, как они работают.
4️⃣ Какой основной параметр ML-алгоритмов, построенных на Decision Tree, отвечает за возможное переобучением модели?
5️⃣ Какие существуют методы и алгоритмы для устранения дисбаланса классов в выборке?
👇🏻 Ждём ваших ответов под постом!
Также не забывайте нас поддерживать и ставить ❤️ и 🔥!
Общие вопросы по Machine Learning:
1️⃣ Почему в линейных ML-моделях переобучение отождествляется с высокими абсолютными значениями весов?
2️⃣ Что такое data leakage? И какие существуют способы его избежать?
3️⃣ Какие существуют алгоритмы оптимизации гиперпараметров в ML-моделях? Кратко опишите, как они работают.
4️⃣ Какой основной параметр ML-алгоритмов, построенных на Decision Tree, отвечает за возможное переобучением модели?
5️⃣ Какие существуют методы и алгоритмы для устранения дисбаланса классов в выборке?
👇🏻 Ждём ваших ответов под постом!
Также не забывайте нас поддерживать и ставить ❤️ и 🔥!
❤12🔥5🤩1
🏆 Рады сообщить об окончании новогоднего квиза и поздравить участников и победителей!
⛄️ @the_vicad
Получает полугодовую подписку ТГ-премиум!
🏂 @luckyrimsky @disgur00 @lena_pena_dreamer
Получают в подарок книги!
💬 Ребята, мы придем ко всем в личку в ближайшее время, просьба открыть доступы 🙂
🫶 Спасибо вам за активное участие, надеемся вы повеселились и узнали что-то новое!☃️
Ставьте ❤️ и 🔥, если хотите ещё подобных квизов!
⛄️ @the_vicad
Получает полугодовую подписку ТГ-премиум!
🏂 @luckyrimsky @disgur00 @lena_pena_dreamer
Получают в подарок книги!
💬 Ребята, мы придем ко всем в личку в ближайшее время, просьба открыть доступы 🙂
🫶 Спасибо вам за активное участие, надеемся вы повеселились и узнали что-то новое!☃️
Ставьте ❤️ и 🔥, если хотите ещё подобных квизов!
🔥18❤7👍4❤🔥1
🩵 Итоги 2024 и планы на 2025!
Всем привет, на связи Рома Васильев, автор этого канала 🙂
Хочу сказать спасибо всем вам, наши любимые подписчики, за участие в жизни Start Career in DS каждому из вас!)
Хотим вместе с командой поделиться с вами своими итогами и планами, чтобы вы понимали что у нас происходит 🙂
Итоги 2024:
1. Нарастили число подписчиков до 12к (почти +3 тысячи подписчиков!)
2. Число просмотров за год составило 922 тысячи, число перерепостов - 25.5 тысяч, а общее число реакций - почти 6 тысяч!
3. Начали делать квизы по машинному обучению и наградили кучу победителей. Их фото красуется рядом с этим постом, давайте поздравим еще раз ребят своими ❤️
4. Пересобрали команду! Теперь над каналом работают аж 3 человека: Рома, Руслан и Катя. Делаем лучший контент для вас!
5. В том числе сделали ряд очень хорошо залетевших постов:
- Классический ML – база: справочник основных алгоритмов
- Почему Polars быстрее, чем Pandas
- Предлагаем вспомнить базовую математику. Справочник материалов
- Открытый курс по прикладной статистике от Академии Аналитиков Авито
- Leetcode по ML/DS
Планы на 2025:
1. Продолжать расти и делать интересный контент в канале для вас!
2. Возродить подготовку материалов для ютуб-канала. Число просмотров говорит о том, что материалы полезны
3. Организовать митап/серию митапов. Эта идея переезжает с 2024 на новый, 2025 год :)
Ставьте ❤️ если вам нравится наш контент и пишите чего вам бы хотелось видеть больше в Start Career in DS!
Всем привет, на связи Рома Васильев, автор этого канала 🙂
Хочу сказать спасибо всем вам, наши любимые подписчики, за участие в жизни Start Career in DS каждому из вас!)
Хотим вместе с командой поделиться с вами своими итогами и планами, чтобы вы понимали что у нас происходит 🙂
Итоги 2024:
1. Нарастили число подписчиков до 12к (почти +3 тысячи подписчиков!)
2. Число просмотров за год составило 922 тысячи, число перерепостов - 25.5 тысяч, а общее число реакций - почти 6 тысяч!
3. Начали делать квизы по машинному обучению и наградили кучу победителей. Их фото красуется рядом с этим постом, давайте поздравим еще раз ребят своими ❤️
4. Пересобрали команду! Теперь над каналом работают аж 3 человека: Рома, Руслан и Катя. Делаем лучший контент для вас!
5. В том числе сделали ряд очень хорошо залетевших постов:
- Классический ML – база: справочник основных алгоритмов
- Почему Polars быстрее, чем Pandas
- Предлагаем вспомнить базовую математику. Справочник материалов
- Открытый курс по прикладной статистике от Академии Аналитиков Авито
- Leetcode по ML/DS
Планы на 2025:
1. Продолжать расти и делать интересный контент в канале для вас!
2. Возродить подготовку материалов для ютуб-канала. Число просмотров говорит о том, что материалы полезны
3. Организовать митап/серию митапов. Эта идея переезжает с 2024 на новый, 2025 год :)
Ставьте ❤️ если вам нравится наш контент и пишите чего вам бы хотелось видеть больше в Start Career in DS!
❤🔥37❤25👍8🔥4
🔗 Базовая теория по DL, которую должен знать каждый
👨💻 Умение строить нейронные сети и понимать, как они работают, является обязательным навыком практически для любого ML-специалиста. Поэтому разберем основные структурные компоненты нейронных сетей.
1️⃣ Искусственный нейрон
Нейрон, Входы (X), Веса (Weights), Смещение (Bias) и Функция активации.
Схему искусственного нейрона и его частей можете изучить тут.
2️⃣ Слои нейронной сети
Слои, виды слоёв (входной слой, скрытый слой, выходной слой) и функциональности (линейный слой, сверточный слой, рекурентный слой).
Про эти и другие наиболее распространенные виды слоев читайте тут. Также изучаем схему простой нейронной сети (перцептрона), про сложность - читаем тут.
3️⃣ Функции активации
Наиболее популярными функциями активаций являются: Sigmoid, Tanh, ReLU, Softmax.
Про эти и другие функции активации читайте тут.
4️⃣ Слои нормализации
Проблема взрыва и затухания градиента.
Основные виды нормализаций активаций в нейронной сети: LayerNorm, BatchNorm, RMSNorm. О каждом более подробно читайте тут.
5️⃣ Dropout и Attention слои
О способе решения проблемы переобучения с Dropout читайте тут.
Attention-механизм стал наиболее популярным в моделях Transformer, позволяя нейронной сети «фокусироваться» на важных частях входного сигнала через attention-score. Подробно о самом механизме читайте тут.
📚 Дополнительно читаем и преисполняемся:
- Наш большой справочник по Deep Learning
- Серия постов с видео по нейронным сетям - [Ч.1], [Ч.2]
- Доступный курс для каждого новичка по основам нейронных сетей
- Пишем свой нейрон на Python: практика для любого уровня
- Основы нейронных сетей с интересным разбором разных тем
- Математика, лежащая в основе нейронных сетей: серия простых статей
Обязательно ставьте ❤️ и 🔥 за наш труд!
Пишите комментарии и задавайте вопросы!
До встречи👋
👨💻 Умение строить нейронные сети и понимать, как они работают, является обязательным навыком практически для любого ML-специалиста. Поэтому разберем основные структурные компоненты нейронных сетей.
1️⃣ Искусственный нейрон
Нейрон, Входы (X), Веса (Weights), Смещение (Bias) и Функция активации.
Схему искусственного нейрона и его частей можете изучить тут.
2️⃣ Слои нейронной сети
Слои, виды слоёв (входной слой, скрытый слой, выходной слой) и функциональности (линейный слой, сверточный слой, рекурентный слой).
Про эти и другие наиболее распространенные виды слоев читайте тут. Также изучаем схему простой нейронной сети (перцептрона), про сложность - читаем тут.
3️⃣ Функции активации
Наиболее популярными функциями активаций являются: Sigmoid, Tanh, ReLU, Softmax.
Про эти и другие функции активации читайте тут.
4️⃣ Слои нормализации
Проблема взрыва и затухания градиента.
Основные виды нормализаций активаций в нейронной сети: LayerNorm, BatchNorm, RMSNorm. О каждом более подробно читайте тут.
5️⃣ Dropout и Attention слои
О способе решения проблемы переобучения с Dropout читайте тут.
Attention-механизм стал наиболее популярным в моделях Transformer, позволяя нейронной сети «фокусироваться» на важных частях входного сигнала через attention-score. Подробно о самом механизме читайте тут.
📚 Дополнительно читаем и преисполняемся:
- Наш большой справочник по Deep Learning
- Серия постов с видео по нейронным сетям - [Ч.1], [Ч.2]
- Доступный курс для каждого новичка по основам нейронных сетей
- Пишем свой нейрон на Python: практика для любого уровня
- Основы нейронных сетей с интересным разбором разных тем
- Математика, лежащая в основе нейронных сетей: серия простых статей
Обязательно ставьте ❤️ и 🔥 за наш труд!
Пишите комментарии и задавайте вопросы!
До встречи👋
❤57🔥25👍12❤🔥3
Всем привет!
Хотим поделиться с вами каналом «Задачи DS - Собеседования, Соревнования, ШАД»
Ребята на своем канале делают обзоры различных направлений в компаниях, разбирают тестовые задания и различные задачи с собеседований.
Что интересного можно у них почитать:
- О направлениях команд в Big Tech, работающих с ML
- О популярных задачах с собеседований по направлениям ML и DS
- Разбор задачи с собеседования в БКС Банк (DS)
Хотим поделиться с вами каналом «Задачи DS - Собеседования, Соревнования, ШАД»
Ребята на своем канале делают обзоры различных направлений в компаниях, разбирают тестовые задания и различные задачи с собеседований.
Что интересного можно у них почитать:
- О направлениях команд в Big Tech, работающих с ML
- О популярных задачах с собеседований по направлениям ML и DS
- Разбор задачи с собеседования в БКС Банк (DS)
❤17🔥8❤🔥1