EasyData
927 subscribers
152 photos
10 videos
22 files
77 links
Добро пожаловать!
Меня зовут Мария Жарова, и это мой блог про науку о данных

Лайфхаки из будней MLщика, полезности по Data Science и ответы на вопросы, которые волнуют новичков и не только🌝

Автор @NaNCat
加入频道
Работая над DS-проектом, мы, конечно, хотим добиться высоких метрик: много времени уделяем анализу, EDA, очистке данных, подбираем нужную модель и гиперпараметры к ней...
А как часто вы задумываетесь о самих данных? Во время работы над учебными кейсами проблем обычно не возникает, т.к. они даются нам в самом задании. Но в реальных проектах (а иногда в тестовых заданиях и на хакатонах), когда мы имеем только постановку задачи, данные приходится искать самим...
И от них, на самом деле, многое зависит: не все датасеты обладают ранжирующей способностью, т.е. признаки могут быть никак не связаны с целевой переменной. Отсюда метрики будут всегда получаться низкими, как бы мы не предобрабатывали данные и не старались обучить модель☹️
К счастью, в Интернете можно найти множество открытых датасетов для задач на любой вкус (и комментарии/статистику использования к ним😊).
Наиболее известные и проверенные ресурсы:
📁 Kaggle: здесь можно найти соревнования (с данными) и просто датасеты. Обращайте внимание на комментарии и число голосов на соответствующих страницах (никем не опробованные данные могут оказаться бесполезными).
📁 Google dataset search: работает как обычный поисковик гугл, только для поиска данных. В целом, он охватывает и датасеты с Kaggle, и из государственных источников, научных экспериментов и т.д. При выборе ориентироваться можно на число ссылок в статьях, ну, или смотреть уже в самом источнике:)
📁 UCI Machine Learning Repository: а это подборка от Калифорнийского университета. Удобно, что данные здесь разделены по типу ML-задач: для временных рядов, классификации, регрессии или рекомендательных систем. Можно даже найти датасеты, которые уже очищены и готовы к использованию😎

Удачи в дата-исканиях!✌️

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_easy
🔥84👍4
С завершением первого (официального) рабочего дня в этом году!👨‍💻
Сегодня снова поговорим про данные, а точнее про инструменты для их разметки😎
В прошлом посте обсуждали сайты-источники, на которых можно найти датасеты для разных задач. Но что, если необходимо обучить модель для более узконаправленной и конкретной цели? Например, создать чат-бота для определённого магазина, который будет консультировать по ограниченному списку товаров; или обучить модель детекции, которая будет определять, что ваша собака несанкционированно залезла на диван😅
Тогда встаёт вопрос о необходимости самостоятельного сбора нужных данных, а вместе с ним и их разметки. И на этот случай есть множество инструментов, которые помогают удобно размечать и текст, и картинки:
👣 labelImg - это простой "разметчик" для задач детекции в CV, при помощи него можно маркировать объекты на изображениях в bounding box. Размеченные данные экспортируются файлами в XML-формате.
👣 labelme - этот онлайн-инструмент тоже для изображений и поддерживает 6 типов аннотаций: многоугольники, прямоугольники, круги, линии, точки и линейные полосы.
👣 supervisely - продвинутая веб-платформа для аннотирования изображений и видео со своим комьюнити.
👣 bella - а этот фреймворк позволяет быстро обрабатывать текстовые данные.

А вообще, сервисов для разметки данных сейчас уже довольно много: например, Сбер создал платформу, через которую любой желающий может зарабатывать на разметке😁

А какими инструментами пользуетесь вы?👀

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_eas
#лайфхаки@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥41
Доброго вечера друзья!💫
Сегодня вышла наша очередная совместная со SkillFactory статья про свёрточные нейросети, на этот раз не только в блоге, но и на Хабре😊
Рассказ нацелен на новичков: постарались просто описать строение такой архитектуры, где её лучше всего применять и какие видятся тренды в развитии. Так что если давно хотели разобраться в том, что такое свёртка - это знак!😁

Всем хороших выходных!☀️

#cv@data_easy
🔥127👍3
Всем привет!
Хочу поделиться ещё одной вышедшей статьёй — про трансферное обучение
По-другому этот приём в ML часто называют дообучение или использование предобученных моделей. При недостатке данных или ресурсов для обучения такой метод может сильно выручить и позволит достичь более высокого качества, чем при обычном обучении «с нуля».
И обязательно берите на заметку «хранилища» предобученных моделей и весов — в библиотеках PyTorch, TensorFlow, а также на HuggingFace и RoboFlow🌸(ссылки и примеры кода есть в статье).
В конце ссылки на полезную литературу😊

Всем успехов!💐

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥105👍4
Привет, друзья!
Поздравляю всех причастных с Днём студента!🤩
Держите небольшую подборку бесплатных курсов, которые помогут в изучении DS - как для начинающих, так и для продолжающих🤓

📚Для совсем новичков открытый курс по Python на Stepic.
С него можно начинать изучение программирования в принципе, подойдёт не только для будущих дата-саентистов, но и для разработчиков.
➡️ Ссылка на Stepik и на дублирующий плейлист на youtube.

📚Для погружения в классический ML можно начать с курса лекций и семинаров от МФТИ.
➡️ Ссылка на плейлист youtube.

📚 Для тех, кто уже знаком с основами ML, есть продолжение предыдущего курса от МФТИ, который знакомит с DL.
➡️ Ссылка на плейлист youtube.

📚Также в качестве дополнения можно ознакомиться с материалами годового курса от DeepLearning School.
➡️ Здесь найдёте материалы базового потока, а здесь - продвинутого.

📚Для погружения в NLP можете посмотреть материалы курса с ODS.
➡️ Ссылка на курс (нужна регистрация).

📚Для любителей рекомендательных систем есть два мини курса, также с ODS.
➡️ Ссылка на первую часть и на вторую.

📚По CV хороший курс на Hugging Face. Единственный возможный минус - он на английском.
➡️ Ссылка на материалы.

Успехов в учёбе и хороших выходных!🍀

#python@data_easy
#classic_ml@data_easy
#cv@data_easy
#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2714👍5
Привет, друзья!
Добавила новое видео на YouTube 📺 Гид по нейросетям в DS: как выбрать модель для CV,NLP, аудио

В нём краткая инструкция для новичков по выбору подходящей модели для различных задач в CV, NLP и обработке аудио😌
- с чего начать?
- какие базовые модели попробовать?
- где искать SOTA-решения? (конечно, Papers with Code😁)

Буду рада вашей поддержке! ❤️ Рекомендательные системы Ютуба лучше подхватывают активные видео, лайк, комментарий и просто просмотр очень помогут! 🥰

И, конечно, пишите, что хотели бы разобрать в следующих выпусках🤪

С первым весенним днём!🌸

UPD: также доступно на rutube

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥9👍4🤩3
➡️НАВИГАЦИЯ ⬅️
Добавила хэштеги ко всем актуальным постам канала🤩

🖱 Технические посты по направлениям:

#python@data_easy
#математика@data_easy
#аналитика@data_easy
#classic_ml@data_easy
#dl@data_easy
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#mlops@data_easy

🖱Маленькие технические полезности, которые не попали в предыдущие рубрики:
#лайфхаки@data_easy

🖱 Всё про поиск работы - лайфхаки, каналы с вакансиями, задачи для собеседований:
#карьера@data_easy

🖱Новости в сфере ИИ и обзоры на полезные нейросети:
#полезный_ии@data_easy

🖱Важная рубрика, которой оказалось очень мало в канале, будем исправлять
ситуацию!

#мем@data_easy

🖱Уютный чат для общения:
https://yangx.top/+v1fdmoHV3JwyYTJi

🖱YouTube канал EasyData:
https://youtube.com/@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥4👍1