EasyData

Работая над DS-проектом, мы, конечно, хотим добиться высоких метрик: много времени уделяем анализу, EDA, очистке данных, подбираем нужную модель и гиперпараметры к ней...
А как часто вы задумываетесь о самих данных? Во время работы над учебными кейсами проблем обычно не возникает, т.к. они даются нам в самом задании. Но в реальных проектах (а иногда в тестовых заданиях и на хакатонах), когда мы имеем только постановку задачи, данные приходится искать самим...
И от них, на самом деле, многое зависит: не все датасеты обладают ранжирующей способностью, т.е. признаки могут быть никак не связаны с целевой переменной. Отсюда метрики будут всегда получаться низкими, как бы мы не предобрабатывали данные и не старались обучить модель☹️
К счастью, в Интернете можно найти множество открытых датасетов для задач на любой вкус (и комментарии/статистику использования к ним😊).
Наиболее известные и проверенные ресурсы:
📁 Kaggle: здесь можно найти соревнования (с данными) и просто датасеты. Обращайте внимание на комментарии и число голосов на соответствующих страницах (никем не опробованные данные могут оказаться бесполезными).
📁 Google dataset search: работает как обычный поисковик гугл, только для поиска данных. В целом, он охватывает и датасеты с Kaggle, и из государственных источников, научных экспериментов и т.д. При выборе ориентироваться можно на число ссылок в статьях, ну, или смотреть уже в самом источнике:)
📁 UCI Machine Learning Repository: а это подборка от Калифорнийского университета. Удобно, что данные здесь разделены по типу ML-задач: для временных рядов, классификации, регрессии или рекомендательных систем. Можно даже найти датасеты, которые уже очищены и готовы к использованию😎

Удачи в дата-исканиях!✌️

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_easy

Kaggle

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

🔥8❤4👍4

1.05K viewsedited 11:50

EasyData

С завершением первого (официального) рабочего дня в этом году!👨‍💻
Сегодня снова поговорим про данные, а точнее про инструменты для их разметки😎
В прошлом посте обсуждали сайты-источники, на которых можно найти датасеты для разных задач. Но что, если необходимо обучить модель для более узконаправленной и конкретной цели? Например, создать чат-бота для определённого магазина, который будет консультировать по ограниченному списку товаров; или обучить модель детекции, которая будет определять, что ваша собака несанкционированно залезла на диван😅
Тогда встаёт вопрос о необходимости самостоятельного сбора нужных данных, а вместе с ним и их разметки. И на этот случай есть множество инструментов, которые помогают удобно размечать и текст, и картинки:

👣

labelImg - это простой "разметчик" для задач детекции в CV, при помощи него можно маркировать объекты на изображениях в bounding box. Размеченные данные экспортируются файлами в XML-формате.

👣

labelme - этот онлайн-инструмент тоже для изображений и поддерживает 6 типов аннотаций: многоугольники, прямоугольники, круги, линии, точки и линейные полосы.

👣

supervisely - продвинутая веб-платформа для аннотирования изображений и видео со своим комьюнити.

👣

bella - а этот фреймворк позволяет быстро обрабатывать текстовые данные.

А вообще, сервисов для разметки данных сейчас уже довольно много: например, Сбер создал платформу, через которую любой желающий может зарабатывать на разметке😁

А какими инструментами пользуетесь вы?👀

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_eas
#лайфхаки@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥4❤1

735 viewsedited 15:19

EasyData

Привет, друзья!
Хорошие новости для тех, кто интересуется LLM😎
7 июня состоялся релиз новой версии Qwen2 - LLM от Alibaba.

На всякий случай, LLM (large language model) - это мощные алгоритмы, способные понимать и генерировать текст, который неотличим от человеческого. В отличие от традиционных NLP-моделей, которые обучены под конкретные узкоспециализированные цели, LLM обучены на огромных объемах текстовых данных, что позволяет им решать широкий спектр задач без необходимости дополнительной настройки.

По большинству тестов Qwen2 сопоставима или даже превосходит новейшие версии GPT-4 и Llama3📈

Важное в цифрах про Qwen2:
🤯 понимает 27 языков, включая русский
🤯 выпущена в 5 размерах от 0.5B до 72B - т.е. в самой “большой” версии 72 млрд параметров
🤯 поддерживаемый контекст от 32k до 128k - т.е. модель способна учитывать от 32 до 128 тысяч токенов (слов, частей слов или символов) при обработке одного фрагмента текста
🤯 все версии, кроме последней, выпущены под лицензией Apache 2.0

Что это значит?
На данный момент самой популярной LLM в открытом доступе является Llama3, но если верить тестам, новая Qwen2 во многом её превосходит (особенно в написании кода, решении математических задач😁). Так что для промышленных решений можно смело тестировать новую китайскую разработку.

➡️ Официальная статья с тестами и исследованиями тут
➡️ Репозиторий модели тут
➡️ Страничка на Hugging Face тут

Продуктивной рабочей недели!🤗

#nlp@data_easy
#полезный_ии@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Qwen

Hello Qwen2

GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD
Introduction After months of efforts, we are pleased to announce the evolution from Qwen1.5 to Qwen2. This time, we bring to you:
Pretrained and instruction-tuned models of 5 sizes, including Qwen2-0.5B, Qwen2-1.5B…

🔥13❤4

837 viewsedited 19:07

EasyData

Всем привет!
Хочу поделиться ещё одной вышедшей статьёй — про трансферное обучение

✨

По-другому этот приём в ML часто называют дообучение или использование предобученных моделей. При недостатке данных или ресурсов для обучения такой метод может сильно выручить и позволит достичь более высокого качества, чем при обычном обучении «с нуля».
И обязательно берите на заметку «хранилища» предобученных моделей и весов — в библиотеках PyTorch, TensorFlow, а также на HuggingFace и RoboFlow🌸(ссылки и примеры кода есть в статье).
В конце ссылки на полезную литературу😊

Всем успехов!💐

#cv@data_easy
#nlp@data_easy
#аудио@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Transfer learning: подробный гайд для начинающих

Трансферное обучение, или Transfer Learning (TL) — это метод в машинном обучении, при котором модель, обученная для одной задачи, переиспользуется для другой, связанной задачи. Представим, что...

🔥10❤5👍4

873 viewsedited 17:30

EasyData

Привет, друзья! 👋
Важные новости из мира искусственного интеллекта — OpenAI представила свою новую модель Chat GPT o1, которая специализируется на логических рассуждениях и сложных задачах. Относительно уже неплохого GPT-4 она сделала ещё более серьёзный шаг в сторону имитации человеческого мышления.

🤖Что особенного в “o1”?
В отличие от предыдущих версий, “o1” не сразу начинает печатать результат, а некоторое время “думает” над ответом. Под капотом модель декомпозирует задачу на несколько шагов, анализирует различные подходы и исправляет собственные ошибки в процессе. Это похоже на то, как мы сами решаем сложные проблемы — разбиваем их на части и пытаемся найти оптимальные решения. Новая версия уже продемонстрировала высокие результаты на тестах: например, в задачах по программированию на Codeforces “o1” превзошла 89% человек и набрала 83% на Международной математической олимпиаде 🔥

🤔Как это работает?
Ключ к успеху “o1” — алгоритм обучения через "цепочку мыслей". В обучающие данные были добавлены примеры ошибочных рассуждений с выходом из них. Благодаря этому модель умеет ставить под сомнение сгенерированное ~~(да-да, в этой версии уже не будет уверенного доказательства “2+2=5”)~~. В алгоритме применяются методы Reinforcement learning — обучения с подкреплением. Логично, но любопытно, что качество ответа повышается с ростом времени, затраченного моделью на рассуждения, это отличает её от других LLM. Но и вычислительных ресурсов нужно существенно больше по сравнению с тем же GPT4-o.

🧑‍💻Где протестировать?
По платной подписке на официальном ресурсе или обходными путями:) Мне удалось запустить через телеграм-бота Syntx AI: после запуска в меню нужно выбрать GPTs/Claude/Gemini, затем нажать на “Управление” и во всплывающем окне включить новую модель. Судя по тому, как “o1” из бота справилась со сложной задачкой на код по сравнению с GPT-4o, есть основания полагать, что она там настоящая😁

📎 Ссылка на официальный релиз.

Продолжаем следить за нейросетями, пока всё под контролем 🧑‍💻

#nlp@data_easy
#полезный_ии@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13👍3😍3

1.03K viewsedited 19:01

EasyData

Всем привет, друзья!
Пару дней назад выпустили новую статью на Habr про BERT и его товарищей ❤️
Материал в первую очередь рассчитан для новичков, так что если давно хотели узнать…
🐈 как устроен механизм внимания без математики, а на примерах;
🐈 в чём особенности BERT, чем он так хорош и для каких задач подходит;
🐈 какие у него разновидности;
- время настало😊

И держите практический шаблон в colab с использованием предобученного DistilBert для решения задачи классификации двумя способами😎

С первым днём зимы!☃️

#nlp@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Модели BERT для машинного обучения: гайд для начинающих

BERT (Bidirectional Encoder Representations from Transformers) — это одна из ключевых моделей обработки естественного языка (NLP), построенная на архитектуре трансформера. Эксперт: Мария Жарова Data...

🔥12❤10🐳2🤔1

1.41K viewsedited 18:25

EasyData

Всем привет! 👋
Сегодня расскажу о магическом способе дообучить большие языковые модели (LLM), даже если у вас нет сервера с мощными видеокартами. Этот метод называется адаптеры.

Большие языковые модели вроде GPT или BERT уже натренированы на огромных объёмах текстов, но, разумеется, часто их необходимо "подстроить" под конкретные задачи. Например, представьте универсального переводчика, который знает 100 языков, но иногда путается в редких диалектах. Чтобы он стал идеален, ему потребуется донастройка.

🐾 Можно использовать классическое дообучение последних слоёв, однако этот подход часто ограничивает адаптацию. Он использует "универсальные" признаки из начала модели, которые могут быть недостаточно информативны для вашей специфической задачи.
А изменение всех весов, конечно, крайне дорогое для LLM с миллиардами параметров.

🙏

Адаптеры — это маленькие модули, которые вставляются между слоями уже обученной нейросети. Именно они обучаются на новой задаче, при этом исходные слои модели остаются неизменными (замороженными).

Если хотите попробовать, вот несколько инструментов:

😶

Hugging Face PEFT (Parameter-Efficient Fine-Tuning) — библиотека для адаптеров, LoRA и других методов.

🔗

ссылка на документацию

🔗

папка с примерами из официального репозитория

😶

AdapterHub — репозиторий готовых адаптеров для разных задач.

🔗

ссылка на страничку официального сайта

🔗

документация с примерами

Лёгкой рабочей недели! 😘

#nlp@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22❤9👍9

1.08K viewsedited 15:45

EasyData

Привет, друзья!
Поздравляю всех причастных с Днём студента!🤩
Держите небольшую подборку бесплатных курсов, которые помогут в изучении DS - как для начинающих, так и для продолжающих🤓

📚Для совсем новичков открытый курс по Python на Stepic.
С него можно начинать изучение программирования в принципе, подойдёт не только для будущих дата-саентистов, но и для разработчиков.
➡️ Ссылка на Stepik и на дублирующий плейлист на youtube.

📚Для погружения в классический ML можно начать с курса лекций и семинаров от МФТИ.
➡️ Ссылка на плейлист youtube.

📚 Для тех, кто уже знаком с основами ML, есть продолжение предыдущего курса от МФТИ, который знакомит с DL.
➡️ Ссылка на плейлист youtube.

📚Также в качестве дополнения можно ознакомиться с материалами годового курса от DeepLearning School.
➡️ Здесь найдёте материалы базового потока, а здесь - продвинутого.

📚Для погружения в NLP можете посмотреть материалы курса с ODS.

➡️

Ссылка на курс (нужна регистрация).

📚Для любителей рекомендательных систем есть два мини курса, также с ODS.
➡️ Ссылка на первую часть и на вторую.

📚По CV хороший курс на Hugging Face. Единственный возможный минус - он на английском.
➡️ Ссылка на материалы.

Успехов в учёбе и хороших выходных!🍀

#python@data_easy
#classic_ml@data_easy
#cv@data_easy
#nlp@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Stepik: online education

Инди-курс программирования на Python

Инди-курс программирования на Python — проверенный временем пошаговый курс для тех, кто хочет освоить разработку с нуля. Уже более 5 лет курс помогает ученикам легко и эффективно изучать python. Мы научим вас создавать свои первые программы, работать с числами…

🔥27❤14👍5

1.09K viewsedited 12:48

EasyData

Всем привет!
В свете последних потрясающих новостей про LLM хочу поделиться ещё одним любопытным исследованием

🙂

Недавний релиз DeepSeek R1 показал, что обучение мощных LLM может стоить значительно дешевле, чем у лидеров рынка. Теперь исследователи из Стэнфорда решили проверить, насколько быстро и дёшево можно дообучить существующую открытую модель, чтобы она конкурировала с проприетарными решениями.

💎 Они взяли Qwen2.5-32B-Instruct и применили knowledge distillation — способ передачи знаний от более мощной модели (учителя) к компактной модели (ученику). Ученик обучается воспроизводить ответы учителя, что позволяет достичь высокой производительности при меньших вычислительных затратах. В данном случае, модель-ученик обучалась на небольшом, но тщательно отобранном датасете из 1000 примеров, сгенерированных Gemini Thinking Experimental (кстати, можно скачать его с HuggingFace).

🫣

Итоги...
Получившаяся модель обошла o1-preview на 27% в тестах MATH и AIME24, сохранив компактность и эффективность.
Но главный результат — скорость и доступность: весь процесс обучения занял 26 минут на 16-ти GPU NVIDIA H100, что сравнимо со стоимостью запуска DeepSeek R1.

📖 Код работы опубликован на GitHub, а обученная модель доступна на Hugging Face.

Этот эксперимент подтверждает тренд на снижение стоимости и времени обучения LLM. Возможно, вскоре появятся всё более доступные «open-weight» решения, которые смогут конкурировать с закрытыми моделями крупнейших компаний😎

#nlp@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

❤22🔥5👍4

964 viewsedited 14:28

EasyData

Всем привет!
Сегодня снова про LLM 🌿
Для тех, кто ещё не посмотрел лекцию Андрея Карпаты Deep Dive into LLMs like ChatGPT, держите небольшой обзор 💜

В 3.5-часовом видео он подробно объясняет, из чего состоят большие языковые модели и как их обучают, рассказывает про их частые проблемы и, конечно, про DeepSeek😊

Ещё из интересного...
📋 Глупые ошибки, которые, на самом деле, закономерны:
🔵 LLM не могут правильно посчитать количество букв в слове из-за особенностей токенизации;
🔵у LLM бывают беды с определением следования дат из-за религиозных текстов, в которых их порядок тоже перепутан.

📋 Откуда берутся галлюцинации и как с ними бороться:
🔵раньше модели не обучались говорить «я не знаю», теперь же с этим борются через специальный этап дообучения с учителем (SFT);
🔵ещё вариант — интегрировать их с поиском, чтобы LLM могла гуглить перед ответом.

📋 Чем интересен DeepSeek R1 и какие источники Карпаты использует, чтобы следить за LLM-прогрессом (lmarena, AINews, Twitter).

➡️Ссылка на оригинал лекции: тык

PS: Андрей Карпаты - ex-директор по ИИ в Tesla и сооснователь OpenAI.

С праздником, любимые подписчики! 💜

#nlp@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Deep Dive into LLMs like ChatGPT

This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…

🔥7❤6👍2

1.06K viewsedited 15:48

EasyData

Привет, друзья!
Добавила новое видео на YouTube 📺 Гид по нейросетям в DS: как выбрать модель для CV,NLP, аудио

✨

В нём краткая инструкция для новичков по выбору подходящей модели для различных задач в CV, NLP и обработке аудио😌
- с чего начать?
- какие базовые модели попробовать?
- где искать SOTA-решения? (конечно, Papers with Code😁)

Буду рада вашей поддержке! ❤️ Рекомендательные системы Ютуба лучше подхватывают активные видео, лайк, комментарий и просто просмотр очень помогут! 🥰

И, конечно, пишите, что хотели бы разобрать в следующих выпусках🤪

С первым весенним днём!🌸

UPD: также доступно на rutube

#cv@data_easy
#nlp@data_easy
#аудио@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16🔥9👍4🤩3

900 viewsedited 10:33

EasyData

➡️

НАВИГАЦИЯ

⬅️

Добавила хэштеги ко всем актуальным постам канала🤩

🖱

Технические посты по направлениям:

#python@data_easy
#математика@data_easy
#аналитика@data_easy
#classic_ml@data_easy
#dl@data_easy
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#mlops@data_easy

🖱

Маленькие технические полезности, которые не попали в предыдущие рубрики:
#лайфхаки@data_easy

🖱

Всё про поиск работы - лайфхаки, каналы с вакансиями, задачи для собеседований:
#карьера@data_easy

🖱

Новости в сфере ИИ и обзоры на полезные нейросети:
#полезный_ии@data_easy

🖱

Важная рубрика, которой оказалось очень мало в канале, будем исправлять
ситуацию!
#мем@data_easy

🖱

Уютный чат для общения:
https://yangx.top/+v1fdmoHV3JwyYTJi

🖱

YouTube канал EasyData:
https://youtube.com/@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

EasyData-chat

Чат канала EasyData❤️

❤8🔥4👍1

951 viewsedited 11:57

EasyData

Привет, друзья!
На небосклоне LLM новая восходящая китайская звезда: модель Kimi-K2 от Moonshot AI. Пока OpenAI и Google заняты гонкой за универсальными AGI (Artificial general intelligence), команда из Пекина делает ставку на производительность внутри диалога - и судя по всему, у них это неплохо получается!

🫤

Что такое Kimi-K2?
Kimi-K2 — это улучшенная LLM, похожая на DeepSeek-v3. Но Kimi-K2 - это не просто "следующая улучшенная версия", а модель, натренированная с прицелом на самостоятельное решение комплексных, многошаговых задач в реальных сценариях: она уточняет детали у пользователя, планирует шаги, кодит, анализирует и доводит дело до конца.

В официальном посте от разработчиков можно увидеть, как Kimi-K2 решает многосоставные задачи полностью и самостоятельно:
— Собирает академическую родословную Stanford NLP: парсит данные, исследует карьеры выпускников, анализирует метрики влияния и строит интерактивный 3D-граф.
— Планирует поездку на концерт: подбирает билеты, жильё, транспорт, сверяется с календарём и формирует отчёт.
— Анализирует зарплаты и удалёнку: проводит статистический анализ с interaction effects, визуализациями и выводами.
— Пишет веб-версию Minecraft: от архитектуры до hand-drawn текстур и генерации мира.
...
Главное - модель сама уточняет, планирует, кодит, анализирует и визуализирует, превращаясь из LLM в полноценного многошагового агента.

🫤

А технические детали?
У модели 1 трлн параметров, из которых 32 млрд активных, контекстное окно 128 тыс. токенов, веса можно скачать на Hugging Face

😏

Насчёт обучения - pretrain + align (SFT + RLHF) + оптимизация плавности в диалоге.
И ключевой фокус на улучшение именно диалогового поведения, а не просто BLEU или accuracy.

🫤

Что это значит для нас?
Kimi-K2 - это пример LLM, фокусированной не на абстрактном интеллекте, а на конкретном опыте пользователя.
И это мощный тренд! Возможно, впереди нас ждёт эра не универсальных AGI, а практичных LLM-компаньонов, ориентированных на задачи конкретных профессий 😏

🫤

Ещё раз все ссылки:
🔗 репозиторий на GitHub
🔗 официальная статья с примерами, бенчмарками и другими деталями
🔗 веса на Hugging Face
🔗 НУ И САМОЕ ГЛАВНОЕ - попробовать модель можно ТУТ (главное сразу включить слева снизу Language=English ну или сделать автоперевод:)) На русском модель отлично отвечает!

Кто уже протестировал - как впечатления?

#полезный_ии@data_easy
#nlp@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16👏4❤1

896 views14:02

EasyData

Привет, друзья!
Современные реалии таковы - новости про LLM заполонили все ленты. Но сегодня речь про кое-что особенное: OpenAI вернулась к своим корням и анонсировала GPT‑OSS - первую модель с открытыми весами после GPT‑2.

🐈

А поподробнее?
🔜Доступны две версии: gpt‑oss‑120B (117 B параметров) и gpt‑oss‑20B (21 B параметров).
🔜Лицензия Apache 2.0 - а значит, можно свободно использовать и дорабатывать без ограничений.
🔜Это открытые веса, а не просто куча исходников - то есть можно запускать локально, адаптировать под себя и никак не связываться с API OpenAI.
🔜Производительность впечатляет: gpt‑oss‑120B сравнима с o4‑mini и даже превосходит её в некоторых задачах (смотрите на скрине).

😏 Это крутой поворот: OpenAI впервые с 2019 года возвращается в open‑weight лигу, а модели уже можно скачать с Hugging Face и запустить.

🐈

Технические моменты:
🔜Модель использует Mixture-of-Experts (MoE) архитектуру: в расширенной версии из ~117 B параметров активны только ~5.1 B на токен, что делает её эффективной для инференса при больших нагрузках.
🔜Поддерживает chain-of-thought reasoning и function-calling, подходит для сложных агентных сценариев, интеллектуальных пайплайнов и использования внутри своей инфраструктуры.

🔗Самые важные ссылки:

🔜

20B на Hugging Face

🔜

120B на Hugging Face

🔜

Официальный пост OpenAI с подробностями архитектуры и бенчмарками

Продолжаем следить за развитием событий 👀

#полезный_ии@data_easy
#nlp@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥10👍4❤2👏1

576 views05:10

About

Blog

Apps

Platform