Работая над DS-проектом, мы, конечно, хотим добиться высоких метрик: много времени уделяем анализу, EDA, очистке данных, подбираем нужную модель и гиперпараметры к ней...
А как часто вы задумываетесь о самих данных? Во время работы над учебными кейсами проблем обычно не возникает, т.к. они даются нам в самом задании. Но в реальных проектах (а иногда в тестовых заданиях и на хакатонах ), когда мы имеем только постановку задачи, данные приходится искать самим...
И от них, на самом деле, многое зависит: не все датасеты обладают ранжирующей способностью, т.е. признаки могут быть никак не связаны с целевой переменной. Отсюда метрики будут всегда получаться низкими, как бы мы не предобрабатывали данные и не старались обучить модель☹️
К счастью, в Интернете можно найти множество открытых датасетов для задач на любой вкус (и комментарии/статистику использования к ним😊).
Наиболее известные и проверенные ресурсы:
📁 Kaggle: здесь можно найти соревнования (с данными) и просто датасеты. Обращайте внимание на комментарии и число голосов на соответствующих страницах (никем не опробованные данные могут оказаться бесполезными).
📁 Google dataset search: работает как обычный поисковик гугл, только для поиска данных. В целом, он охватывает и датасеты с Kaggle, и из государственных источников, научных экспериментов и т.д. При выборе ориентироваться можно на число ссылок в статьях, ну, или смотреть уже в самом источнике:)
📁 UCI Machine Learning Repository: а это подборка от Калифорнийского университета. Удобно, что данные здесь разделены по типу ML-задач: для временных рядов, классификации, регрессии или рекомендательных систем. Можно даже найти датасеты, которые уже очищены и готовы к использованию😎
Удачи в дата-исканиях!✌️
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_easy
А как часто вы задумываетесь о самих данных? Во время работы над учебными кейсами проблем обычно не возникает, т.к. они даются нам в самом задании. Но в реальных проектах (
И от них, на самом деле, многое зависит: не все датасеты обладают ранжирующей способностью, т.е. признаки могут быть никак не связаны с целевой переменной. Отсюда метрики будут всегда получаться низкими, как бы мы не предобрабатывали данные и не старались обучить модель☹️
К счастью, в Интернете можно найти множество открытых датасетов для задач на любой вкус (и комментарии/статистику использования к ним😊).
Наиболее известные и проверенные ресурсы:
📁 Kaggle: здесь можно найти соревнования (с данными) и просто датасеты. Обращайте внимание на комментарии и число голосов на соответствующих страницах (никем не опробованные данные могут оказаться бесполезными).
📁 Google dataset search: работает как обычный поисковик гугл, только для поиска данных. В целом, он охватывает и датасеты с Kaggle, и из государственных источников, научных экспериментов и т.д. При выборе ориентироваться можно на число ссылок в статьях, ну, или смотреть уже в самом источнике:)
📁 UCI Machine Learning Repository: а это подборка от Калифорнийского университета. Удобно, что данные здесь разделены по типу ML-задач: для временных рядов, классификации, регрессии или рекомендательных систем. Можно даже найти датасеты, которые уже очищены и готовы к использованию😎
Удачи в дата-исканиях!✌️
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_easy
Kaggle
Kaggle: Your Machine Learning and Data Science Community
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
🔥8❤4👍4
С завершением первого (официального) рабочего дня в этом году!👨💻
Сегодня снова поговорим про данные, а точнее про инструменты для их разметки😎
В прошлом посте обсуждали сайты-источники, на которых можно найти датасеты для разных задач. Но что, если необходимо обучить модель для более узконаправленной и конкретной цели? Например, создать чат-бота для определённого магазина, который будет консультировать по ограниченному списку товаров; или обучить модель детекции, которая будет определять, что ваша собака несанкционированно залезла на диван😅
Тогда встаёт вопрос о необходимости самостоятельного сбора нужных данных, а вместе с ним и их разметки. И на этот случай есть множество инструментов, которые помогают удобно размечать и текст, и картинки:
👣 labelImg - это простой "разметчик" для задач детекции в CV, при помощи него можно маркировать объекты на изображениях в bounding box. Размеченные данные экспортируются файлами в XML-формате.
👣 labelme - этот онлайн-инструмент тоже для изображений и поддерживает 6 типов аннотаций: многоугольники, прямоугольники, круги, линии, точки и линейные полосы.
👣 supervisely - продвинутая веб-платформа для аннотирования изображений и видео со своим комьюнити.
👣 bella - а этот фреймворк позволяет быстро обрабатывать текстовые данные.
А вообще, сервисов для разметки данных сейчас уже довольно много: например, Сбер создал платформу, через которую любой желающий может зарабатывать на разметке😁
А какими инструментами пользуетесь вы?👀
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_eas
#лайфхаки@data_easy
Сегодня снова поговорим про данные, а точнее про инструменты для их разметки
В прошлом посте обсуждали сайты-источники, на которых можно найти датасеты для разных задач. Но что, если необходимо обучить модель для более узконаправленной и конкретной цели? Например, создать чат-бота для определённого магазина, который будет консультировать по ограниченному списку товаров; или обучить модель детекции, которая будет определять, что ваша собака несанкционированно залезла на диван
Тогда встаёт вопрос о необходимости самостоятельного сбора нужных данных, а вместе с ним и их разметки. И на этот случай есть множество инструментов, которые помогают удобно размечать и текст, и картинки:
А вообще, сервисов для разметки данных сейчас уже довольно много: например, Сбер создал платформу, через которую любой желающий может зарабатывать на разметке😁
А какими инструментами пользуетесь вы?
#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_eas
#лайфхаки@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥4❤1
Привет, друзья!
Хорошие новости для тех, кто интересуется LLM😎
7 июня состоялся релиз новой версии Qwen2 - LLM от Alibaba.
На всякий случай, LLM (large language model) - это мощные алгоритмы, способные понимать и генерировать текст, который неотличим от человеческого. В отличие от традиционных NLP-моделей, которые обучены под конкретные узкоспециализированные цели, LLM обучены на огромных объемах текстовых данных, что позволяет им решать широкий спектр задач без необходимости дополнительной настройки.
По большинству тестов Qwen2 сопоставима или даже превосходит новейшие версии GPT-4 и Llama3📈
Важное в цифрах про Qwen2:
🤯 понимает 27 языков, включая русский
🤯 выпущена в 5 размерах от 0.5B до 72B - т.е. в самой “большой” версии 72 млрд параметров
🤯 поддерживаемый контекст от 32k до 128k - т.е. модель способна учитывать от 32 до 128 тысяч токенов (слов, частей слов или символов) при обработке одного фрагмента текста
🤯 все версии, кроме последней, выпущены под лицензией Apache 2.0
Что это значит?
На данный момент самой популярной LLM в открытом доступе является Llama3, но если верить тестам, новая Qwen2 во многом её превосходит(особенно в написании кода, решении математических задач😁) . Так что для промышленных решений можно смело тестировать новую китайскую разработку.
➡️ Официальная статья с тестами и исследованиями тут
➡️ Репозиторий модели тут
➡️ Страничка на Hugging Face тут
Продуктивной рабочей недели!🤗
#nlp@data_easy
#полезный_ии@data_easy
Хорошие новости для тех, кто интересуется LLM😎
7 июня состоялся релиз новой версии Qwen2 - LLM от Alibaba.
На всякий случай, LLM (large language model) - это мощные алгоритмы, способные понимать и генерировать текст, который неотличим от человеческого. В отличие от традиционных NLP-моделей, которые обучены под конкретные узкоспециализированные цели, LLM обучены на огромных объемах текстовых данных, что позволяет им решать широкий спектр задач без необходимости дополнительной настройки.
По большинству тестов Qwen2 сопоставима или даже превосходит новейшие версии GPT-4 и Llama3
Важное в цифрах про Qwen2:
🤯 понимает 27 языков, включая русский
🤯 выпущена в 5 размерах от 0.5B до 72B - т.е. в самой “большой” версии 72 млрд параметров
🤯 поддерживаемый контекст от 32k до 128k - т.е. модель способна учитывать от 32 до 128 тысяч токенов (слов, частей слов или символов) при обработке одного фрагмента текста
🤯 все версии, кроме последней, выпущены под лицензией Apache 2.0
Что это значит?
На данный момент самой популярной LLM в открытом доступе является Llama3, но если верить тестам, новая Qwen2 во многом её превосходит
➡️ Официальная статья с тестами и исследованиями тут
➡️ Репозиторий модели тут
➡️ Страничка на Hugging Face тут
Продуктивной рабочей недели!🤗
#nlp@data_easy
#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Qwen
Hello Qwen2
GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD
Introduction After months of efforts, we are pleased to announce the evolution from Qwen1.5 to Qwen2. This time, we bring to you:
Pretrained and instruction-tuned models of 5 sizes, including Qwen2-0.5B, Qwen2-1.5B…
Introduction After months of efforts, we are pleased to announce the evolution from Qwen1.5 to Qwen2. This time, we bring to you:
Pretrained and instruction-tuned models of 5 sizes, including Qwen2-0.5B, Qwen2-1.5B…
🔥13❤4