EasyData
946 subscribers
152 photos
10 videos
22 files
79 links
Добро пожаловать!
Меня зовут Мария Жарова, и это мой блог про науку о данных

Лайфхаки из будней MLщика, полезности по Data Science и ответы на вопросы, которые волнуют новичков и не только🌝

Автор @NaNCat
加入频道
Доброе утро🌞
Часто мы слышим фразы «модель обучалась на XXX данных», «модель плохо обучилась», «я обучил модель»😁
А ведь неспроста этот процесс так называли! Попробуйте сравнить обучение ребенка в школе и обучение ML-модели: в принципе, термин оправдывает свой истинный смысл🤔

#полезный_ии@data_easy
🔥54
Друзья, всем привет!
Осень подходит к концу, но впереди ещё немало интересных data-событий как для новичков, так и для профи😎
Анонс на ближайшие пару-тройку недель:

🎄с 22 по 24 ноября пройдёт нашумевшая конференция AI Journey (Илона Маска официально пригласили выступить:)). В любом случае, мероприятие будет онлайн, регистрация не требуется.
Программу можно посмотреть здесь.

🎄 5-6 декабря состоится YaTalks - главная конференция Яндекса для IT-сообщества. В анонсе технические доклады о разработке и ML, научно-популярные лекции и выступления об управлении командами.
Формат участия онлайн и офлайн (в Москве и Белграде).
Зарегистрироваться можно здесь.

🎄6 декабря в 17:00 состоится онлайн-лекция для новичков про ML от Тинькофф, зарегистрироваться можно тут (надо пролистать в самый конец).

🎄с 27 ноября по 1 декабря пройдёт бесплатный онлайн-интенсив по языковым моделям от создателей YandexGPT.
Посмотреть программу и зарегистрироваться можно здесь.

💫 Для тех, кто ищет работу или стажировку, есть такое:
💳 One day offer от Сбера 25 ноября
❤️ Intern code battle от Яндекса

🥹 А ещё 22 ноября в 19:00 приглашаю на IT-рентген, который в этот раз пройдёт с участием Сергея Мезенцева (а я расскажу про data science)😊

Продуктивной недели☃️
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥8
Forwarded from Deleted Account
This media is not supported in your browser
VIEW IN TELEGRAM
12🔥9👍3
Доброе утро!☕️
Хорошие новости - недавно в отчете британского аналитического центра Autonomy сообщили, что при помощи искусственного интеллекта человечество сможет перейти на 4-дневную рабочую неделю к 2033 году (с сохранением прежней зарплаты!)😋

Была исследована зависимость производительности от внедрения ИИ. И получилось, что можно легко сократить рабочую неделю с 40 до 32 часов, если внедрить в процесс языковые модели по типу chatGPT. Наибольший потенциал для этого, по мнению исследований, имеют бюрократы и чиновники.

Более того, пару дней назад Билл Гейтс заявил, что в ближайшем будущем мы вообще сможем перейти даже на 3-дневную рабочую неделю, если правильно будем использовать ИИ😳

Очевидно, у технологий есть огромные преимущества, а как их использовать - решать нам. Кстати, недавно прошла презентация DevDay, на которой были представлены новые инструменты для пользователей chatGPT. Из наиболее интересного: API для внедрения технологий компании в собственные приложения, конструктор ботов, более быстрая модель GPT-4 Turbo.

Как минимум это значит, что теперь можно легко создавать собственных чат-ботов. Достаточно загрузить в интерфейс информацию о продуктах или переписки с клиентами, и модель дообучится под Вашу цель. Так можно создавать любых ассистентов, вот несколько примеров, представленных компанией:
📍Game Time — поможет разобраться в правилах настольной игры.
📍Creative Writing Coach — тренер письма.
📍Tech Support Advisor - технический консультант, может предложить пошаговые решения проблем.
📍Sous Chef — посоветует рецепт из продуктов, которые есть дома.
📍Sticker Whiz - позволяет сгенерировать стикеры и заказать их печать с доставкой до двери.
📍Math Mentor - учитель математики для детей.

Ставьте 🔥, если хотите инструкцию как создать своего чат-бота😎

Всем продуктивной недели💪

#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍4👏3
ML_cheatlist.pdf
7.5 MB
Good morning!🌅
Если готовитесь к интервью (или просто хотите освежить знания и поупражняться в английском), держите небольшую шпаргалку по популярным разделам ML (список тем на первой страничке). Довольно легко читается + в конце интересный бонус про часть soft-skills собеседований.

Хорошего дня и с последним днём осени!☃️🎄

#карьера@data_easy
10🔥6👍4
Работая над DS-проектом, мы, конечно, хотим добиться высоких метрик: много времени уделяем анализу, EDA, очистке данных, подбираем нужную модель и гиперпараметры к ней...
А как часто вы задумываетесь о самих данных? Во время работы над учебными кейсами проблем обычно не возникает, т.к. они даются нам в самом задании. Но в реальных проектах (а иногда в тестовых заданиях и на хакатонах), когда мы имеем только постановку задачи, данные приходится искать самим...
И от них, на самом деле, многое зависит: не все датасеты обладают ранжирующей способностью, т.е. признаки могут быть никак не связаны с целевой переменной. Отсюда метрики будут всегда получаться низкими, как бы мы не предобрабатывали данные и не старались обучить модель☹️
К счастью, в Интернете можно найти множество открытых датасетов для задач на любой вкус (и комментарии/статистику использования к ним😊).
Наиболее известные и проверенные ресурсы:
📁 Kaggle: здесь можно найти соревнования (с данными) и просто датасеты. Обращайте внимание на комментарии и число голосов на соответствующих страницах (никем не опробованные данные могут оказаться бесполезными).
📁 Google dataset search: работает как обычный поисковик гугл, только для поиска данных. В целом, он охватывает и датасеты с Kaggle, и из государственных источников, научных экспериментов и т.д. При выборе ориентироваться можно на число ссылок в статьях, ну, или смотреть уже в самом источнике:)
📁 UCI Machine Learning Repository: а это подборка от Калифорнийского университета. Удобно, что данные здесь разделены по типу ML-задач: для временных рядов, классификации, регрессии или рекомендательных систем. Можно даже найти датасеты, которые уже очищены и готовы к использованию😎

Удачи в дата-исканиях!✌️

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_easy
🔥84👍4
Всем привет!
Хочу поделиться отличной библиотекой Cleanlab, которая помогает улучшить данные: автоматически очистить и найти проблемы в них🐈

Вот несколько примеров, что можно сделать в пару строк с этой библиотекой:
Найти потенциально неверно размеченные строки в датасетах
Обработать пропуски, дубликаты, проверить дрейф в данных
Настроить и протестировать модель (кстати, использовать можно совершенно любую! но если она будет совместима со sklearn, методы библиотеки сработают "из коробки")

Быстрые ссылки:
❤️ Репозиторий на GitHub
❤️ Документация с инструкциями оформления кода для различных задач
❤️ Краткое описание на pypi (здесь можно найти много быстрых ссылок на примеры, частые вопросы и научные статьи)

Всем хорошего вечера и данных❤️

#аналитика@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍5🔥4😍3
Head_First_GIT.pdf
127.7 MB
Какой инструмент объединяет всех программистов?👀
С помощью него мы можем создавать большие проекты, удобно работать в команде, версионировать код…

Конечно, это git (не путать с GitHub:))
И помимо git + {add, commit -m “:)”, push} у него есть ещё масса полезных свойств, которые подробно описаны на 466 страницах книги Р. Ганди.
Здесь вы найдёте всё про основы Git, свойства ветвлений, слияние, коммиты, устройство репозитория, отмену действий и исправление ошибок🐈
Также в отдельном разделе рассказывается про командную работу, методы и советы по эффективной организации взаимодействия.

Всем слияний без конфликтов👨‍💻

#mlops@data_easy
#лайфхаки@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
👍105🔥3🐳1🤪1
Replit.pdf
2.5 MB
Поздравляю всех программистов! Нейросети добрались и до нас 🚀
Наверняка, многие уже пробовали попросить ChatGPT написать какой-то код? Мне он выдавал действительно рабочие варианты далеко не всегда:)
Теперь есть полноценная онлайн-среда разработки Replit (правда, она была ей и до этого), но недавно в неё добавилась функция "Code with AI" - генерация кода по запросу. От обычного ChatGPT она отличается тем, что эта модель обучена конкретно под кодинг - соответственно, работает она гораздо лучше (смогла решить задачу с leetcode medium верно с первой попытки)

Так что, у StackOverflow появился конкурент🙃 Инструкцию по первому запуску как всегда держите в pdf🤖

Приятной работы🤗

#полезный_ии@data_easy
🔥206👍2🤯1
Друзья, всем привет!
Конец года для многих напряжённое время, нужно успеть сделать все дела и закрыть задачи💻 Но Новый Год и каникулы уже совсем близко!🌟
Если вдруг станет скучно, держите интересную идею для подарка досуга - навыки Алисы📱

Что это такое?
С точки зрения пользователя, навык — это приложение для Алисы, в которое можно перейти через каталог, подсказку в Алисе или назвав определенную активационную фразу. Такое приложение может выполять абсолютно любую функцию, вот несколько наглядных примеров:
- помощник в изучении английского
- включение подсветки в колонке Алисы
- 7-минутная тренировка
- помощник одного банка для оплаты счетов
- игра по изучению айтишного сленга

Вообще, примеров и идей в каталоге довольно много (сейчас более 4000 навыков), но если вам захочется создать что-то своё - будь то игра или помощник для бизнеса - это очень просто релизовать самостоятельно😊 Любой пользователь может разработать абсолютно любой навык Алисы, используя, например, питон и особые схемы обработки запросов.
Сперва нужно продумать сценарий диалога, а затем оформить его в интенты - это задачи, которые пользователь формулирует в конкретной реплике. Интенты необходимо заполнять по форме, подобной словарям. После этого можно бесплатно задеплоить навык в Яндекс-облако.
Подробнее все детали, инструкцию и примеры можете найти в официальной документации. Или если лень читать, можно узнать ключевые моменты из их мини-курса😉

С наступающим Новым Годом!!!🎄🎅🎁

#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍32
С Наступившим, друзья!
Надеюсь, все уже доели новогодние салаты😜 А я к вам с традиционным анонсом ML-ных мероприятий на январь👣
Похоже, что месяц будет полупраздничным: никаких серьёзных конференций не запланировано🙃 Зато будет кое-что поинтереснее...

🦜 13 января 2024 года состоится Data Ёлка от ODS с подведением итогов 2023 года по всем направлениям: RecSys, NLP, CV, в медицине, производстве и т.д...
❄️ Время: 13.01.2024 с 11:00 до 19:00 по мск времени.
❄️ Формат участия: до 16:00 только онлайн, после чего митап будет дублироваться и в офлайн части - она перейдёт в мероприятие "Data Ёлка в гостях у МТС" и пройдёт в Москве в офисе МТС Банка на проспекте Андропова 18к1.
❄️ Регистрация и программа: тык.

🏦 22 января 2024 года запланирован IT-каток от Тинькофф. Кроме обычного катания на коньках можно послушать различные доклады, поиграть в хоккей и кёрлинг, пройти квесты и покушать😜
❄️ Время: 22.01.2024 с 18:00 до 22:00 по мск времени.
❄️ Формат участия: офлайн в Москве в парке Горького (в онлайне, возможно, будет организована трансляция выступлений).
❄️ Регистрация и программа: тык.

На этом пока всё:) Хороших выходных!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🤩3
С завершением первого (официального) рабочего дня в этом году!👨‍💻
Сегодня снова поговорим про данные, а точнее про инструменты для их разметки😎
В прошлом посте обсуждали сайты-источники, на которых можно найти датасеты для разных задач. Но что, если необходимо обучить модель для более узконаправленной и конкретной цели? Например, создать чат-бота для определённого магазина, который будет консультировать по ограниченному списку товаров; или обучить модель детекции, которая будет определять, что ваша собака несанкционированно залезла на диван😅
Тогда встаёт вопрос о необходимости самостоятельного сбора нужных данных, а вместе с ним и их разметки. И на этот случай есть множество инструментов, которые помогают удобно размечать и текст, и картинки:
👣 labelImg - это простой "разметчик" для задач детекции в CV, при помощи него можно маркировать объекты на изображениях в bounding box. Размеченные данные экспортируются файлами в XML-формате.
👣 labelme - этот онлайн-инструмент тоже для изображений и поддерживает 6 типов аннотаций: многоугольники, прямоугольники, круги, линии, точки и линейные полосы.
👣 supervisely - продвинутая веб-платформа для аннотирования изображений и видео со своим комьюнити.
👣 bella - а этот фреймворк позволяет быстро обрабатывать текстовые данные.

А вообще, сервисов для разметки данных сейчас уже довольно много: например, Сбер создал платформу, через которую любой желающий может зарабатывать на разметке😁

А какими инструментами пользуетесь вы?👀

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_eas
#лайфхаки@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥41
Наверное, многие слышали выражение в духе "модель в вакууме бесполезна". Имеется в виду, что как бы ни была хорошо обучена модель, пока её не внедрят "в production", обычный пользователь не сможет ею воспользоваться - а значит, и никакого смысла в её создании пока нет🥲
В этот момент может показаться, что обязательно должна найтись какая-то компания, которая возьмёт вашу модель и начнёт её использовать на реальных пользователях. Но вообще говоря, это не совсем так😉 Под выражением "этап вывода в production" (особенно в учебной практике) подразумевается просто обёртка в какое-нибудь простое приложение, развёрнутое на локальном сервере (т.е. на вашем компьютере). Пример можно увидеть на скрине - это полноценная веб-страница, на которой можно интерактивно получить предсказание вида ириса по его характеристикам (да-да, это модель, обученная на датасете iris.csv🌸). 
Смысл такой "локальной" демонстрации в том, что можно как минимум наглядно показать людям, далёким от программирования (например, это могут быть те же заказчики ваших ml-решений на работе) возможности и принцип работы модели. А если ещё заморочиться с дизайном покрасивее и развернуть приложение на удалённом сервере (это, кстати, можно сделать бесплатно, но, как правило, с ограниченным числом запросов к нему) - то получится настоящая демо-версия проекта👑
Такую вещь, на самом деле, легко реализовать при помощи библиотеки Flask на Python буквально в 20 строчек кода, ловите шаблон этого мини-проекта в архиве☄️
🚀 запускать из папки flask_example командой python app.py
🚀 после этого приложение запустится и будет доступно по локальному адресу http://localhost:5000 - можно открыть его в браузере и протестировать
🚀 в файле index.html хранится html-шаблон веб-страницы: по надписям, которые мы видим на ней в браузере, можно определить, какие места в коде за них отвечают, и изменить их:)

Из альтернативных способов «вывода в production», которые можно реализовать в домашних условиях - телеграмм-бот или приложение streamlit, про них расскажем в следующих выпусках🤗

#mlops@data_easy
🔥9👍5💘2
Добрый вечер, друзья!
Бывало такое, что запустили цикл, а он никак не завершается и когда закончится непонятно? Или применяете функцию, и ячейка зависает на неопределённый срок? Не очень здорово, когда код превращается в "чёрный ящик" с неизвестным временем выполнения☹️
К счастью, эту проблему можно решить при помощи библиотеки tqdm🔮 Вот несколько примеров её самых полезных возможностей:
➡️ for i in tqdm(range(1000)):
Если итерируемый объект в цикле for обернуть в tqdm, мы увидим прогресс-бар, который покажет продвижение по итерациям цикла и оставшееся время выполнения.
➡️ df['col'_1] = df['col'].progress_apply(func_1)
При работе с pandas-датафреймами обычный apply можно заменить на progress_apply, тогда также будет показываться прогресс-бар. Это бывает полезно при больших размерах датасета.
➡️ df['col_2'] = process_map(
func_2,
df['col'],
max_workers=8,
chunksize=64,
desc='Description',
colour='green'
)
А это "прогрессивный" аналог map, только здесь ещё можно распараллелить процесс при помощи аргументов max_workers и chunksize + везде можно добавлять подпись для прогресс-бара и его цвет💚

Ещё больше интересных приёмов можно узнать из официальной документации🦋

Хорошего вечера и быстрого кода!

#python@data_easy
#лайфхаки@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥61
Доброго вечера, друзья!
Отгремели новогодние праздники, и, возможно, для некоторых это повод найти новую работу🤑

В дополнение к предыдущим постам со ссылками на каналы и чаты с вакансиями, держите новую подборку:

🏅t.me/odsjobs - возрождение чата с вакансиями от ОДС в телеграмм
🏅 t.me/datasciencejobs - большой канал с вакансияи по всем data-профессиям
🏅 t.me/phystechcareerchannel - канал, рождённый в МФТИ
🏅 t.me/vacancy_cs - канал, рождённый в ВШЭ
🏅t.me/sberlogajobs2 - канал, рождённый в Сбере
🏅t.me/not_boring_ds_jobs - канал, рождённый в Альфа-банке

А где вы ищете работу? Делитесь в комментариях😊

Успехов в поисках и интересных задач!🖖

#карьера@data_easy
13🤩5
Доброго вечера всем любителям Jupyter-ноутбуков и не только!
Приходилось ли вам писать отдельный py-модуль, а функциями из него пользоваться в ноутбуке?
Проблема в том, что при каждом обновлении py-файла, чтобы оно активировалось внутри Jupyter-ноутбука, необходимо перезагружать ядро☄️
Это не только трата времени, но и потеря всех локальных переменных текущей сессии:(

Эту проблему исправит метод importlib из библиотеки reload🌟Предположим, наш модуль называется my_module, тогда нам понадобится следующий код:


from importlib import reload
import my_module

my_module = reload(my_module)


Запустив эти строки после обновления файла с модулем, все последние изменения станут доступны в Jupyter-ноутбуке😊

Хорошего вечера!🌆

#python@data_easy
#лайфхаки@data_easy
🔥146😍6👏3
Всем привет!
Февраль вступил в свои права, а это значит, что пора составить новый список мероприятий на ближайший месяц🕺
Кроме конференций также начинаются наборы на новые потоки открытых курсов🙃

🌱 6 февраля в 19:00 пройдёт день открытых дверей Академии Data Science от Тинькофф.
Формат участия: онлайн и офлайн В Москве.
Регистрация: по ссылке.

🌱 До 10 февраля можно записаться на новый поток Deep Learning School. В весеннем семестре можно пройти курс по CV или по NLP.
Регистрация: по ссылке.

🌱 15 февраля состоится митап по Greenplum от Яндекса. На нём расскажут об эффективных приёмах разработки и управления этой СУБД.
Формат участия: онлайн и офлайн в Москве.
Регистрация: по ссылке.

🌱 17 февраля запланирован Субботник по инфраструктуре, тоже от Яндекса.
Формат участия: онлайн и офлайн в Москве.
Регистрация: по ссылке.

🌱 20 февраля в 18:00 начнётся празднование Дня Рождения Python в Сбере.
Формат участия: офлайн в Москве (((шанс побывать в их красивом офисе)))
Регистрация: по ссылке.

🌱 6-7 марта пройдёт международная конференция OpenTalks.AI. This is an international independent Open conference on Artificial intelligence:)
Формат участия: офлайн в Тбилиси, онлайн-трансляция, думается, тоже будет.
Регистрация: here.

🌱 16-17 марта пройдёт IT Purple Conf, организованная МФТИ. Планируются интересные научные доклады, про индустриальный IT, soft skills и трудоустройство.
Формат участия: онлайн и офлайн в Москве.
Регистрация: по ссылке.

Хорошего дня!🌺
🔥13👍43