EasyData

Работая над DS-проектом, мы, конечно, хотим добиться высоких метрик: много времени уделяем анализу, EDA, очистке данных, подбираем нужную модель и гиперпараметры к ней...
А как часто вы задумываетесь о самих данных? Во время работы над учебными кейсами проблем обычно не возникает, т.к. они даются нам в самом задании. Но в реальных проектах (а иногда в тестовых заданиях и на хакатонах), когда мы имеем только постановку задачи, данные приходится искать самим...
И от них, на самом деле, многое зависит: не все датасеты обладают ранжирующей способностью, т.е. признаки могут быть никак не связаны с целевой переменной. Отсюда метрики будут всегда получаться низкими, как бы мы не предобрабатывали данные и не старались обучить модель☹️
К счастью, в Интернете можно найти множество открытых датасетов для задач на любой вкус (и комментарии/статистику использования к ним😊).
Наиболее известные и проверенные ресурсы:
📁 Kaggle: здесь можно найти соревнования (с данными) и просто датасеты. Обращайте внимание на комментарии и число голосов на соответствующих страницах (никем не опробованные данные могут оказаться бесполезными).
📁 Google dataset search: работает как обычный поисковик гугл, только для поиска данных. В целом, он охватывает и датасеты с Kaggle, и из государственных источников, научных экспериментов и т.д. При выборе ориентироваться можно на число ссылок в статьях, ну, или смотреть уже в самом источнике:)
📁 UCI Machine Learning Repository: а это подборка от Калифорнийского университета. Удобно, что данные здесь разделены по типу ML-задач: для временных рядов, классификации, регрессии или рекомендательных систем. Можно даже найти датасеты, которые уже очищены и готовы к использованию😎

Удачи в дата-исканиях!✌️

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_easy

Kaggle

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

🔥8❤4👍4

1.05K viewsedited 11:50

EasyData

С завершением первого (официального) рабочего дня в этом году!👨‍💻
Сегодня снова поговорим про данные, а точнее про инструменты для их разметки😎
В прошлом посте обсуждали сайты-источники, на которых можно найти датасеты для разных задач. Но что, если необходимо обучить модель для более узконаправленной и конкретной цели? Например, создать чат-бота для определённого магазина, который будет консультировать по ограниченному списку товаров; или обучить модель детекции, которая будет определять, что ваша собака несанкционированно залезла на диван😅
Тогда встаёт вопрос о необходимости самостоятельного сбора нужных данных, а вместе с ним и их разметки. И на этот случай есть множество инструментов, которые помогают удобно размечать и текст, и картинки:

👣

labelImg - это простой "разметчик" для задач детекции в CV, при помощи него можно маркировать объекты на изображениях в bounding box. Размеченные данные экспортируются файлами в XML-формате.

👣

labelme - этот онлайн-инструмент тоже для изображений и поддерживает 6 типов аннотаций: многоугольники, прямоугольники, круги, линии, точки и линейные полосы.

👣

supervisely - продвинутая веб-платформа для аннотирования изображений и видео со своим комьюнити.

👣

bella - а этот фреймворк позволяет быстро обрабатывать текстовые данные.

А вообще, сервисов для разметки данных сейчас уже довольно много: например, Сбер создал платформу, через которую любой желающий может зарабатывать на разметке😁

А какими инструментами пользуетесь вы?👀

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_eas
#лайфхаки@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥4❤1

737 viewsedited 15:19

EasyData

Доброго вечера друзья!💫
Сегодня вышла наша очередная совместная со SkillFactory статья про свёрточные нейросети, на этот раз не только в блоге, но и на Хабре😊
Рассказ нацелен на новичков: постарались просто описать строение такой архитектуры, где её лучше всего применять и какие видятся тренды в развитии. Так что если давно хотели разобраться в том, что такое свёртка - это знак!😁

Всем хороших выходных!☀️

#cv@data_easy

Skillfactory media

Сверточные нейронные сети - что это такое: основы и принципы

Что такое сверточные нейронные сети простыми словами, как они работают и где применяются. В статье рассматриваются основные компоненты, такие как сверточный слой и пулинг, а также будущие перспективы и советы по обучению работе с нейросетями.

🔥12❤7👍3

772 viewsedited 18:02

EasyData

Всем привет!
Хочу поделиться ещё одной вышедшей статьёй — про трансферное обучение

✨

По-другому этот приём в ML часто называют дообучение или использование предобученных моделей. При недостатке данных или ресурсов для обучения такой метод может сильно выручить и позволит достичь более высокого качества, чем при обычном обучении «с нуля».
И обязательно берите на заметку «хранилища» предобученных моделей и весов — в библиотеках PyTorch, TensorFlow, а также на HuggingFace и RoboFlow🌸(ссылки и примеры кода есть в статье).
В конце ссылки на полезную литературу😊

Всем успехов!💐

#cv@data_easy
#nlp@data_easy
#аудио@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Transfer learning: подробный гайд для начинающих

Трансферное обучение, или Transfer Learning (TL) — это метод в машинном обучении, при котором модель, обученная для одной задачи, переиспользуется для другой, связанной задачи. Представим, что...

🔥10❤5👍4

875 viewsedited 17:30

EasyData

Привет, друзья!
Поздравляю всех причастных с Днём студента!🤩
Держите небольшую подборку бесплатных курсов, которые помогут в изучении DS - как для начинающих, так и для продолжающих🤓

📚Для совсем новичков открытый курс по Python на Stepic.
С него можно начинать изучение программирования в принципе, подойдёт не только для будущих дата-саентистов, но и для разработчиков.
➡️ Ссылка на Stepik и на дублирующий плейлист на youtube.

📚Для погружения в классический ML можно начать с курса лекций и семинаров от МФТИ.
➡️ Ссылка на плейлист youtube.

📚 Для тех, кто уже знаком с основами ML, есть продолжение предыдущего курса от МФТИ, который знакомит с DL.
➡️ Ссылка на плейлист youtube.

📚Также в качестве дополнения можно ознакомиться с материалами годового курса от DeepLearning School.
➡️ Здесь найдёте материалы базового потока, а здесь - продвинутого.

📚Для погружения в NLP можете посмотреть материалы курса с ODS.

➡️

Ссылка на курс (нужна регистрация).

📚Для любителей рекомендательных систем есть два мини курса, также с ODS.
➡️ Ссылка на первую часть и на вторую.

📚По CV хороший курс на Hugging Face. Единственный возможный минус - он на английском.
➡️ Ссылка на материалы.

Успехов в учёбе и хороших выходных!🍀

#python@data_easy
#classic_ml@data_easy
#cv@data_easy
#nlp@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Stepik: online education

Инди-курс программирования на Python

Инди-курс программирования на Python — проверенный временем пошаговый курс для тех, кто хочет освоить разработку с нуля. Уже более 5 лет курс помогает ученикам легко и эффективно изучать python. Мы научим вас создавать свои первые программы, работать с числами…

🔥27❤14👍5

1.1K viewsedited 12:48

EasyData

Привет, друзья!
Добавила новое видео на YouTube 📺 Гид по нейросетям в DS: как выбрать модель для CV,NLP, аудио

✨

В нём краткая инструкция для новичков по выбору подходящей модели для различных задач в CV, NLP и обработке аудио😌
- с чего начать?
- какие базовые модели попробовать?
- где искать SOTA-решения? (конечно, Papers with Code😁)

Буду рада вашей поддержке! ❤️ Рекомендательные системы Ютуба лучше подхватывают активные видео, лайк, комментарий и просто просмотр очень помогут! 🥰

И, конечно, пишите, что хотели бы разобрать в следующих выпусках🤪

С первым весенним днём!🌸

UPD: также доступно на rutube

#cv@data_easy
#nlp@data_easy
#аудио@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16🔥9👍4🤩3

905 viewsedited 10:33

EasyData

➡️

НАВИГАЦИЯ

⬅️

Добавила хэштеги ко всем актуальным постам канала🤩

🖱