Работая над DS-проектом, мы, конечно, хотим добиться высоких метрик: много времени уделяем анализу, EDA, очистке данных, подбираем нужную модель и гиперпараметры к ней...
А как часто вы задумываетесь о самих данных? Во время работы над учебными кейсами проблем обычно не возникает, т.к. они даются нам в самом задании. Но в реальных проектах (а иногда в тестовых заданиях и на хакатонах ), когда мы имеем только постановку задачи, данные приходится искать самим...
И от них, на самом деле, многое зависит: не все датасеты обладают ранжирующей способностью, т.е. признаки могут быть никак не связаны с целевой переменной. Отсюда метрики будут всегда получаться низкими, как бы мы не предобрабатывали данные и не старались обучить модель☹️
К счастью, в Интернете можно найти множество открытых датасетов для задач на любой вкус (и комментарии/статистику использования к ним😊).
Наиболее известные и проверенные ресурсы:
📁 Kaggle: здесь можно найти соревнования (с данными) и просто датасеты. Обращайте внимание на комментарии и число голосов на соответствующих страницах (никем не опробованные данные могут оказаться бесполезными).
📁 Google dataset search: работает как обычный поисковик гугл, только для поиска данных. В целом, он охватывает и датасеты с Kaggle, и из государственных источников, научных экспериментов и т.д. При выборе ориентироваться можно на число ссылок в статьях, ну, или смотреть уже в самом источнике:)
📁 UCI Machine Learning Repository: а это подборка от Калифорнийского университета. Удобно, что данные здесь разделены по типу ML-задач: для временных рядов, классификации, регрессии или рекомендательных систем. Можно даже найти датасеты, которые уже очищены и готовы к использованию😎
Удачи в дата-исканиях!✌️
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_easy
А как часто вы задумываетесь о самих данных? Во время работы над учебными кейсами проблем обычно не возникает, т.к. они даются нам в самом задании. Но в реальных проектах (
И от них, на самом деле, многое зависит: не все датасеты обладают ранжирующей способностью, т.е. признаки могут быть никак не связаны с целевой переменной. Отсюда метрики будут всегда получаться низкими, как бы мы не предобрабатывали данные и не старались обучить модель☹️
К счастью, в Интернете можно найти множество открытых датасетов для задач на любой вкус (и комментарии/статистику использования к ним😊).
Наиболее известные и проверенные ресурсы:
📁 Kaggle: здесь можно найти соревнования (с данными) и просто датасеты. Обращайте внимание на комментарии и число голосов на соответствующих страницах (никем не опробованные данные могут оказаться бесполезными).
📁 Google dataset search: работает как обычный поисковик гугл, только для поиска данных. В целом, он охватывает и датасеты с Kaggle, и из государственных источников, научных экспериментов и т.д. При выборе ориентироваться можно на число ссылок в статьях, ну, или смотреть уже в самом источнике:)
📁 UCI Machine Learning Repository: а это подборка от Калифорнийского университета. Удобно, что данные здесь разделены по типу ML-задач: для временных рядов, классификации, регрессии или рекомендательных систем. Можно даже найти датасеты, которые уже очищены и готовы к использованию😎
Удачи в дата-исканиях!✌️
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_easy
Kaggle
Kaggle: Your Machine Learning and Data Science Community
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
🔥8❤4👍4
С завершением первого (официального) рабочего дня в этом году!👨💻
Сегодня снова поговорим про данные, а точнее про инструменты для их разметки😎
В прошлом посте обсуждали сайты-источники, на которых можно найти датасеты для разных задач. Но что, если необходимо обучить модель для более узконаправленной и конкретной цели? Например, создать чат-бота для определённого магазина, который будет консультировать по ограниченному списку товаров; или обучить модель детекции, которая будет определять, что ваша собака несанкционированно залезла на диван😅
Тогда встаёт вопрос о необходимости самостоятельного сбора нужных данных, а вместе с ним и их разметки. И на этот случай есть множество инструментов, которые помогают удобно размечать и текст, и картинки:
👣 labelImg - это простой "разметчик" для задач детекции в CV, при помощи него можно маркировать объекты на изображениях в bounding box. Размеченные данные экспортируются файлами в XML-формате.
👣 labelme - этот онлайн-инструмент тоже для изображений и поддерживает 6 типов аннотаций: многоугольники, прямоугольники, круги, линии, точки и линейные полосы.
👣 supervisely - продвинутая веб-платформа для аннотирования изображений и видео со своим комьюнити.
👣 bella - а этот фреймворк позволяет быстро обрабатывать текстовые данные.
А вообще, сервисов для разметки данных сейчас уже довольно много: например, Сбер создал платформу, через которую любой желающий может зарабатывать на разметке😁
А какими инструментами пользуетесь вы?👀
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_eas
#лайфхаки@data_easy
Сегодня снова поговорим про данные, а точнее про инструменты для их разметки
В прошлом посте обсуждали сайты-источники, на которых можно найти датасеты для разных задач. Но что, если необходимо обучить модель для более узконаправленной и конкретной цели? Например, создать чат-бота для определённого магазина, который будет консультировать по ограниченному списку товаров; или обучить модель детекции, которая будет определять, что ваша собака несанкционированно залезла на диван
Тогда встаёт вопрос о необходимости самостоятельного сбора нужных данных, а вместе с ним и их разметки. И на этот случай есть множество инструментов, которые помогают удобно размечать и текст, и картинки:
А вообще, сервисов для разметки данных сейчас уже довольно много: например, Сбер создал платформу, через которую любой желающий может зарабатывать на разметке😁
А какими инструментами пользуетесь вы?
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_eas
#лайфхаки@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥4❤1
Доброго вечера друзья!💫
Сегодня вышла наша очередная совместная со SkillFactory статья про свёрточные нейросети, на этот раз не только в блоге, но и на Хабре😊
Рассказ нацелен на новичков: постарались просто описать строение такой архитектуры, где её лучше всего применять и какие видятся тренды в развитии. Так что если давно хотели разобраться в том, что такое свёртка - это знак!😁
Всем хороших выходных!☀️
#cv@data_easy
Сегодня вышла наша очередная совместная со SkillFactory статья про свёрточные нейросети, на этот раз не только в блоге, но и на Хабре😊
Рассказ нацелен на новичков: постарались просто описать строение такой архитектуры, где её лучше всего применять и какие видятся тренды в развитии. Так что если давно хотели разобраться в том, что такое свёртка - это знак!😁
Всем хороших выходных!☀️
#cv@data_easy
Skillfactory media
Сверточные нейронные сети - что это такое: основы и принципы
Что такое сверточные нейронные сети простыми словами, как они работают и где применяются. В статье рассматриваются основные компоненты, такие как сверточный слой и пулинг, а также будущие перспективы и советы по обучению работе с нейросетями.
🔥12❤7👍3
Всем привет!
Хочу поделиться ещё одной вышедшей статьёй — про трансферное обучение✨
По-другому этот приём в ML часто называют дообучение или использование предобученных моделей. При недостатке данных или ресурсов для обучения такой метод может сильно выручить и позволит достичь более высокого качества, чем при обычном обучении «с нуля».
И обязательно берите на заметку «хранилища» предобученных моделей и весов — в библиотеках PyTorch, TensorFlow, а также на HuggingFace и RoboFlow🌸 (ссылки и примеры кода есть в статье).
В конце ссылки на полезную литературу😊
Всем успехов!💐
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Хочу поделиться ещё одной вышедшей статьёй — про трансферное обучение
По-другому этот приём в ML часто называют дообучение или использование предобученных моделей. При недостатке данных или ресурсов для обучения такой метод может сильно выручить и позволит достичь более высокого качества, чем при обычном обучении «с нуля».
И обязательно берите на заметку «хранилища» предобученных моделей и весов — в библиотеках PyTorch, TensorFlow, а также на HuggingFace и RoboFlow
В конце ссылки на полезную литературу😊
Всем успехов!
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Transfer learning: подробный гайд для начинающих
Трансферное обучение, или Transfer Learning (TL) — это метод в машинном обучении, при котором модель, обученная для одной задачи, переиспользуется для другой, связанной задачи. Представим, что...
🔥10❤5👍4
Привет, друзья!
Поздравляю всех причастных с Днём студента!🤩
Держите небольшую подборку бесплатных курсов, которые помогут в изучении DS - как для начинающих, так и для продолжающих🤓
📚 Для совсем новичков открытый курс по Python на Stepic.
С него можно начинать изучение программирования в принципе, подойдёт не только для будущих дата-саентистов, но и для разработчиков.
➡️ Ссылка на Stepik и на дублирующий плейлист на youtube.
📚 Для погружения в классический ML можно начать с курса лекций и семинаров от МФТИ.
➡️ Ссылка на плейлист youtube.
📚 Для тех, кто уже знаком с основами ML, есть продолжение предыдущего курса от МФТИ, который знакомит с DL.
➡️ Ссылка на плейлист youtube.
📚 Также в качестве дополнения можно ознакомиться с материалами годового курса от DeepLearning School.
➡️ Здесь найдёте материалы базового потока, а здесь - продвинутого.
📚 Для погружения в NLP можете посмотреть материалы курса с ODS.
➡️ Ссылка на курс (нужна регистрация).
📚 Для любителей рекомендательных систем есть два мини курса, также с ODS.
➡️ Ссылка на первую часть и на вторую.
📚 По CV хороший курс на Hugging Face. Единственный возможный минус - он на английском.
➡️ Ссылка на материалы.
Успехов в учёбе и хороших выходных!🍀
#python@data_easy
#classic_ml@data_easy
#cv@data_easy
#nlp@data_easy
Поздравляю всех причастных с Днём студента!
Держите небольшую подборку бесплатных курсов, которые помогут в изучении DS - как для начинающих, так и для продолжающих
С него можно начинать изучение программирования в принципе, подойдёт не только для будущих дата-саентистов, но и для разработчиков.
Успехов в учёбе и хороших выходных!
#python@data_easy
#classic_ml@data_easy
#cv@data_easy
#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Stepik: online education
Инди-курс программирования на Python
Инди-курс программирования на Python — проверенный временем пошаговый курс для тех, кто хочет освоить разработку с нуля. Уже более 5 лет курс помогает ученикам легко и эффективно изучать python. Мы научим вас создавать свои первые программы, работать с числами…
🔥27❤14👍5
Привет, друзья!
Добавила новое видео на YouTube📺 Гид по нейросетям в DS: как выбрать модель для CV,NLP, аудио✨
В нём краткая инструкция для новичков по выбору подходящей модели для различных задач в CV, NLP и обработке аудио😌
- с чего начать?
- какие базовые модели попробовать?
- где искать SOTA-решения?(конечно, Papers with Code😁)
Буду рада вашей поддержке! ❤️ Рекомендательные системы Ютуба лучше подхватывают активные видео, лайк, комментарий и просто просмотр очень помогут!🥰
И, конечно, пишите, что хотели бы разобрать в следующих выпусках🤪
С первым весенним днём!🌸
UPD: также доступно на rutube
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Добавила новое видео на YouTube
В нём краткая инструкция для новичков по выбору подходящей модели для различных задач в CV, NLP и обработке аудио
- с чего начать?
- какие базовые модели попробовать?
- где искать SOTA-решения?
Буду рада вашей поддержке! ❤️ Рекомендательные системы Ютуба лучше подхватывают активные видео, лайк, комментарий и просто просмотр очень помогут!
И, конечно, пишите, что хотели бы разобрать в следующих выпусках
С первым весенним днём!🌸
UPD: также доступно на rutube
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16🔥9👍4🤩3
Добавила хэштеги ко всем актуальным постам канала
#python@data_easy
#математика@data_easy
#аналитика@data_easy
#classic_ml@data_easy
#dl@data_easy
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#mlops@data_easy
#лайфхаки@data_easy
#карьера@data_easy
#полезный_ии@data_easy
ситуацию!
#мем@data_easy
https://yangx.top/+v1fdmoHV3JwyYTJi
https://youtube.com/@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
EasyData-chat
Чат канала EasyData❤️
❤8🔥4👍1