EasyData

Поздравляю всех программистов! Нейросети добрались и до нас 🚀
Наверняка, многие уже пробовали попросить ChatGPT написать какой-то код? Мне он выдавал действительно рабочие варианты далеко не всегда:)
Теперь есть полноценная онлайн-среда разработки Replit (правда, она была ей и до этого), но недавно в неё добавилась функция "Code with AI" - генерация кода по запросу. От обычного ChatGPT она отличается тем, что эта модель обучена конкретно под кодинг - соответственно, работает она гораздо лучше (смогла решить задачу с leetcode medium верно с первой попытки✨)

Так что, у StackOverflow появился конкурент🙃 Инструкцию по первому запуску как всегда держите в pdf🤖

Приятной работы🤗

#полезный_ии@data_easy

🔥20❤6👍2🤯1

924 viewsedited 17:01

EasyData

Друзья, всем привет!
Конец года для многих напряжённое время, нужно успеть сделать все дела и закрыть задачи💻 Но Новый Год и каникулы уже совсем близко!🌟
~~Если вдруг станет скучно,~~ держите интересную идею для ~~подарка~~ досуга - навыки Алисы

📱

Что это такое?
С точки зрения пользователя, навык — это приложение для Алисы, в которое можно перейти через каталог, подсказку в Алисе или назвав определенную активационную фразу. Такое приложение может выполять абсолютно любую функцию, вот несколько наглядных примеров:
- помощник в изучении английского
- включение подсветки в колонке Алисы
- 7-минутная тренировка
- помощник одного банка для оплаты счетов
- игра по изучению айтишного сленга

Вообще, примеров и идей в каталоге довольно много (сейчас более 4000 навыков), но если вам захочется создать что-то своё - будь то игра или помощник для бизнеса - это очень просто релизовать самостоятельно😊 Любой пользователь может разработать абсолютно любой навык Алисы, используя, например, питон и особые схемы обработки запросов.
Сперва нужно продумать сценарий диалога, а затем оформить его в интенты - это задачи, которые пользователь формулирует в конкретной реплике. Интенты необходимо заполнять по форме, подобной словарям. После этого можно бесплатно задеплоить навык в Яндекс-облако.
Подробнее все детали, инструкцию и примеры можете найти в официальной документации. Или если лень читать, можно узнать ключевые моменты из их мини-курса

😉

С наступающим Новым Годом!!!🎄

🎅

🎁

#полезный_ии@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

Навыки Алисы

Каталог навыков Алисы, голосового помощника от Яндекса

Расширьте возможности Алисы, голосового помощника от Яндекса, за счёт новых навыков! Обучите её заводить будильник, заказывать пиццу, играть в слова или вызывать службу спасения! Множество полезных навыков для голосового помощника ждут вас в Каталоге навыков…

🔥10👍3❤2

734 viewsedited 07:27

EasyData

С Наступившим, друзья!
Надеюсь, все уже доели новогодние салаты😜 А я к вам с традиционным анонсом ML-ных мероприятий на январь👣
Похоже, что месяц будет полупраздничным: никаких серьёзных конференций не запланировано🙃 Зато будет кое-что поинтереснее...

🦜

13 января 2024 года состоится Data Ёлка от ODS с подведением итогов 2023 года по всем направлениям: RecSys, NLP, CV, в медицине, производстве и т.д...

❄️

Время: 13.01.2024 с 11:00 до 19:00 по мск времени.

❄️

Формат участия: до 16:00 только онлайн, после чего митап будет дублироваться и в офлайн части - она перейдёт в мероприятие "Data Ёлка в гостях у МТС" и пройдёт в Москве в офисе МТС Банка на проспекте Андропова 18к1.

❄️

Регистрация и программа: тык.

🏦

22 января 2024 года запланирован IT-каток от Тинькофф. Кроме обычного катания на коньках можно послушать различные доклады, поиграть в хоккей и кёрлинг, пройти квесты и покушать😜

❄️

Время: 22.01.2024 с 18:00 до 22:00 по мск времени.

❄️

Формат участия: офлайн в Москве в парке Горького (в онлайне, возможно, будет организована трансляция выступлений).

❄️

Регистрация и программа: тык.

На этом пока всё:) Хороших выходных!

Please open Telegram to view this post

VIEW IN TELEGRAM

on-ice.tinkoff.ru

Tinkoff on Ice 2.0

ИТ-Каток в Парке Горького 22 января. Активности на льду для взрослых, отдельная детская зона, доклады и дискуссии вместе с ведущими спикерами ИТ-индустрии

👍8❤4🤩3

665 viewsedited 16:01

EasyData

С завершением первого (официального) рабочего дня в этом году!👨‍💻
Сегодня снова поговорим про данные, а точнее про инструменты для их разметки😎
В прошлом посте обсуждали сайты-источники, на которых можно найти датасеты для разных задач. Но что, если необходимо обучить модель для более узконаправленной и конкретной цели? Например, создать чат-бота для определённого магазина, который будет консультировать по ограниченному списку товаров; или обучить модель детекции, которая будет определять, что ваша собака несанкционированно залезла на диван😅
Тогда встаёт вопрос о необходимости самостоятельного сбора нужных данных, а вместе с ним и их разметки. И на этот случай есть множество инструментов, которые помогают удобно размечать и текст, и картинки:

👣

labelImg - это простой "разметчик" для задач детекции в CV, при помощи него можно маркировать объекты на изображениях в bounding box. Размеченные данные экспортируются файлами в XML-формате.

👣

labelme - этот онлайн-инструмент тоже для изображений и поддерживает 6 типов аннотаций: многоугольники, прямоугольники, круги, линии, точки и линейные полосы.

👣

supervisely - продвинутая веб-платформа для аннотирования изображений и видео со своим комьюнити.

👣

bella - а этот фреймворк позволяет быстро обрабатывать текстовые данные.

А вообще, сервисов для разметки данных сейчас уже довольно много: например, Сбер создал платформу, через которую любой желающий может зарабатывать на разметке😁

А какими инструментами пользуетесь вы?👀

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
#classic_ml@data_eas
#лайфхаки@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥4❤1

739 viewsedited 15:19

EasyData

Наверное, многие слышали выражение в духе "модель в вакууме бесполезна". Имеется в виду, что как бы ни была хорошо обучена модель, пока её не внедрят "в production", обычный пользователь не сможет ею воспользоваться - а значит, и никакого смысла в её создании пока нет🥲
В этот момент может показаться, что обязательно должна найтись какая-то компания, которая возьмёт вашу модель и начнёт её использовать на реальных пользователях. Но вообще говоря, это не совсем так😉 Под выражением "этап вывода в production" (особенно в учебной практике) подразумевается просто обёртка в какое-нибудь простое приложение, развёрнутое на локальном сервере (т.е. на вашем компьютере). Пример можно увидеть на скрине - это полноценная веб-страница, на которой можно интерактивно получить предсказание вида ириса по его характеристикам (да-да, это модель, обученная на датасете iris.csv🌸).
Смысл такой "локальной" демонстрации в том, что можно как минимум наглядно показать людям, далёким от программирования (например, это могут быть те же заказчики ваших ml-решений на работе) возможности и принцип работы модели. А если ещё заморочиться с дизайном покрасивее и развернуть приложение на удалённом сервере (это, кстати, можно сделать бесплатно, но, как правило, с ограниченным числом запросов к нему) - то получится настоящая демо-версия проекта👑
Такую вещь, на самом деле, легко реализовать при помощи библиотеки Flask на Python буквально в 20 строчек кода, ловите шаблон этого мини-проекта в архиве☄️
🚀 запускать из папки flask_example командой python app.py
🚀 после этого приложение запустится и будет доступно по локальному адресу http://localhost:5000 - можно открыть его в браузере и протестировать
🚀 в файле index.html хранится html-шаблон веб-страницы: по надписям, которые мы видим на ней в браузере, можно определить, какие места в коде за них отвечают, и изменить их:)

Из альтернативных способов «вывода в production», которые можно реализовать в домашних условиях - телеграмм-бот или приложение streamlit, про них расскажем в следующих выпусках🤗

#mlops@data_easy

🔥9👍5💘2

897 viewsedited 09:28

EasyData

flask_example.zip

26.5 KB

👍12

782 views09:28

EasyData

Добрый вечер, друзья!
Бывало такое, что запустили цикл, а он никак не завершается и когда закончится непонятно? Или применяете функцию, и ячейка зависает на неопределённый срок? Не очень здорово, когда код превращается в "чёрный ящик" с неизвестным временем выполнения☹️
К счастью, эту проблему можно решить при помощи библиотеки tqdm🔮 Вот несколько примеров её самых полезных возможностей:

➡️

for i in tqdm(range(1000)):
Если итерируемый объект в цикле for обернуть в tqdm, мы увидим прогресс-бар, который покажет продвижение по итерациям цикла и оставшееся время выполнения.

➡️

df['col'_1] = df['col'].progress_apply(func_1)
При работе с pandas-датафреймами обычный apply можно заменить на progress_apply, тогда также будет показываться прогресс-бар. Это бывает полезно при больших размерах датасета.

➡️

df['col_2'] = process_map(
    func_2,
    df['col'],
    max_workers=8,
    chunksize=64,
    desc='Description',
    colour='green'
)

А это "прогрессивный" аналог map, только здесь ещё можно распараллелить процесс при помощи аргументов max_workers и chunksize + везде можно добавлять подпись для прогресс-бара и его цвет💚

Ещё больше интересных приёмов можно узнать из официальной документации

🦋

Хорошего вечера и быстрого кода!⚡

#python@data_easy
#лайфхаки@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15🔥6❤1

991 viewsedited 16:12

EasyData

Доброго вечера, друзья!
Отгремели новогодние праздники, и, возможно, для некоторых это повод найти ~~новую~~ работу🤑

В дополнение к предыдущим постам со ссылками на каналы и чаты с вакансиями, держите новую подборку:

🏅t.me/odsjobs - возрождение чата с вакансиями от ОДС в телеграмм
🏅 t.me/datasciencejobs - большой канал с вакансияи по всем data-профессиям
🏅 t.me/phystechcareerchannel - канал, рождённый в МФТИ
🏅 t.me/vacancy_cs - канал, рождённый в ВШЭ
🏅t.me/sberlogajobs2 - канал, рождённый в Сбере
🏅t.me/not_boring_ds_jobs - канал, рождённый в Альфа-банке

А где вы ищете работу? Делитесь в комментариях😊

Успехов в поисках и интересных задач!🖖

#карьера@data_easy

EasyData

Для тех, кто интересуется рынком вакансий в Data Science, небольшая подборка больших каналов с предложениями:

🌟https://yangx.top/datascienceml_jobs
💫https://yangx.top/betterdatacommunity/9
✨https://yangx.top/ml_data_science_job
⭐️https://yangx.top/datasciencework

В следующих…

❤13🤩5

1.2K viewsedited 17:41

EasyData

Доброго вечера ~~всем любителям Jupyter-ноутбуков и не только~~!
Приходилось ли вам писать отдельный py-модуль, а функциями из него пользоваться в ноутбуке?
Проблема в том, что при каждом обновлении py-файла, чтобы оно активировалось внутри Jupyter-ноутбука, необходимо перезагружать ядро☄️
Это не только трата времени, но и потеря всех локальных переменных текущей сессии:(

Эту проблему исправит метод importlib из библиотеки reload🌟Предположим, наш модуль называется my_module, тогда нам понадобится следующий код:


from importlib import reload
import my_module

my_module = reload(my_module)

Запустив эти строки после обновления файла с модулем, все последние изменения станут доступны в Jupyter-ноутбуке😊

Хорошего вечера!🌆

#python@data_easy
#лайфхаки@data_easy

🔥14❤6😍6👏3

1.08K viewsedited 16:30

EasyData

Всем привет!
Февраль вступил в свои права, а это значит, что пора составить новый список мероприятий на ближайший месяц🕺
Кроме конференций также начинаются наборы на новые потоки открытых курсов🙃

🌱 6 февраля в 19:00 пройдёт день открытых дверей Академии Data Science от Тинькофф.
Формат участия: онлайн и офлайн В Москве.
Регистрация: по ссылке.

🌱 До 10 февраля можно записаться на новый поток Deep Learning School. В весеннем семестре можно пройти курс по CV или по NLP.
Регистрация: по ссылке.

🌱 15 февраля состоится митап по Greenplum от Яндекса. На нём расскажут об эффективных приёмах разработки и управления этой СУБД.
Формат участия: онлайн и офлайн в Москве.
Регистрация: по ссылке.

🌱 17 февраля запланирован Субботник по инфраструктуре, тоже от Яндекса.
Формат участия: онлайн и офлайн в Москве.
Регистрация: по ссылке.

🌱 20 февраля в 18:00 начнётся празднование Дня Рождения Python в Сбере.
Формат участия: офлайн в Москве (((шанс побывать в их красивом офисе)))
Регистрация: по ссылке.

🌱 6-7 марта пройдёт международная конференция OpenTalks.AI. This is an international independent Open conference on Artificial intelligence:)
Формат участия: офлайн в Тбилиси, онлайн-трансляция, думается, тоже будет.
Регистрация: here .

🌱 16-17 марта пройдёт IT Purple Conf, организованная МФТИ. Планируются интересные научные доклады, про индустриальный IT, soft skills и трудоустройство.
Формат участия: онлайн и офлайн в Москве.
Регистрация: по ссылке.

Хорошего дня!🌺

event.centraluniversity.ru

День открытых дверей Академии Data Science 6 февраля 2024 года

День открытых дверей Академии Data Science в Центральном Университете 6 февраля 2024 года с 19:00 по 21:30 по Москве. День открытых дверей для студентов бакалавров 3-4 курсов и выпускников ВУЗов, начинающих аналитиков, продактов и ml-инженеров.

🔥13👍4❤3

1.25K viewsedited 11:06

EasyData

🌟 Доброго вечера, дорогие друзья! 🌟
Рада вернуться к вам после небольшого перерыва и продолжить ~~писать посты~~ наше увлекательное путешествие в мир Data Science! Новостей и планов куча, обещаю много всего интересного✊😏

Начнём, конечно, с самого важного - анонса ближайших мероприятий на апрель🙃

❣️

11 апреля состоится митап по soft-skills от Яндекс
где: онлайн и офлайн в Санкт-Петербурге,
ссылка на регистрацию: тык.

❣️ Тинькофф запустил серию офлайн-встреч Tinkoff Lab Research 4 Kids для знакомства с их лабораторией и поиска потенциальных сотрудников,
где: офлайн в Санкт-Петербурге, Москве, Казани, Новосибирске, Екатеринбурге, Астане,
ссылка на регистрацию и расписание: тык.

❣️

17-18 апреля пройдёт большая конференция Data Fusion по анализу данных и ИИ-технологиям,
где: онлайн и офлайн в Москве,
ссылка на регистрацию: тык.

❣️

До 21 апреля можно зарегистрироваться на бесплатную Летнюю школу Яндекса,
где: онлайн,
ссылка на регистрацию и список направлений: тык.

❣️

До 1 мая можно зарегистрироваться в Jun-Aug 2024 mentoring session от сообщества WiBD (несмотря на название присоединиться может любой и в качестве ментора, и как менти:)),
всю подробную информацию можно найти здесь: тык.

💕 А ещё сегодня и завтра в 19:00 по мск с моим участием пройдёт последний в подобном формате интенсив по погружению в DS совместно со SkillFactory, ссылки тут и тут.

💕 И если вы вдруг учитесь в Лицее НИУ ВШЭ, то до 10 апреля можно зарегистрироваться на новый поток Alfa campus junior, там я прочитаю две лекции по ML в апреле,
ссылка на регистрацию и расписание: тык.

Пишите в комментариях, куда хотели бы сходить✌

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥7🔥5❤3

901 viewsedited 15:19

EasyData

Добрый вечер, друзья!
Jupyter notebook - неотъемлемая часть любого дата-саентиста и вместе с тем удобнейшая среда разработки на Python🐍
А чтобы сделать работу в юпитере ещё более приятной, держите несколько лайфхаков, которые не требуют никакой дополнительной установки:

💻 Символ _ по умолчанию содержит в себе результат вычисления предыдущей ячейки (если вы его, конечно, не переопределили:))

💻 Shift+Tab или просто Tab выводят подсказки по коду

💻 Функция help выведет прямо в ноутбуке документацию по любой функции/библиотеке/встроенному классу

💻 Комбинация Ctrl + / закомментирует все выбранные строки кода

💻 Shift + Enter запускает ячейку с кодом аналогично кнопке Run

💻 Esc + a создаст пустую ячейку над текущей, Esc + b - под ней

💻 Esc + L добавит номера строк ячейках

А какими приёмами пользуетесь вы? Делитесь в комментариях☄️

Хороших всем выходных!🤗

#лайфхаки@data_easy

🔥17❤7👍3

800 viewsedited 15:20

EasyData

Привет, друзья!
Позавчера пришло интересное письмо в рассылке МФТИ, делюсь с вами 💌

Если кратко, в понедельник 22 апреля в 19:00 по мск пройдёт открытая встреча по выбору карьерной траектории в Data Science👩‍💻
На ней совместно с опытным HR-консультантом Алёной Полетаевой обсудим:

🏷 Как изменился рынок IT за последние годы.
🏷 Какие в настоящий момент существуют направления в DS.
🏷 Основные тенденции в 2024 году.
🏷 Насколько важно сейчас профильное образование для начала карьеры.
🏷 Актуальные требования к специалистам начального и среднего уровней на примере конкретных вакансий.

Если начинаете или планируете искать работу в DS, обязательно приходите, подготовили для вас очень классный материал🤗

➡ Зарегистрироваться можно по ссылке

✨

‼UPD: Мероприятие перенесено с 15 апреля на 22 апреля👀

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥6❤5

874 viewsedited 13:17

«О нет, только не графики!» - часто слышу подобное от студентов. Действительно, построение графиков в питоне может показаться довольно муторным занятием: куча разных библиотек, везде свои названия методов и своеобразный синтаксис, в котором легко запутаться🙈
Главное преимущество - то что в питоне мы можем легко обработать и собрать нужные данные. И на самом деле, если один раз разобраться с библиотеками и иметь под рукой шпаргалку основных типов графиков в любимой библиотеке, это сильно упростит работу и избавит от необходимости выгружать данные и строить визуализации в сторонних программах. К тому же, при помощи некоторых библиотек можно легко построить очень оригинальные картинки, включая анимации:)

Итак, библиотеки для построения графиков в питоне:
🌟 pandas (да-да, и это самый простой и быстрый способ что-то нарисовать);
🌟 plotly (преимущество этой библиотеки - интерактивность);
🌟 matplotlib (классическая библиотека, графики - статичные изображения);
🌟 seaborn (более высокоуровневая надстройка над matplotlib).

Копировать шаблонный код для построения графиков откуда-либо нормально: в некоторых случаях он, действительно, бывает громоздким. И даже если выучили все методы и аргументы функций наизусть, писать с нуля одно и тоже не всегда эффективно😁

А пока ловите небольшую шпаргалку по plotly - в ней несколько примеров построения самых популярных видов графиков + парочка нестандартных визуализаций. Сам код и его копия в пдф во вложениях, в ноутбуке можно запустить интерактив:)

Всем красивых графиков!💅

#python@data_easy
#аналитика@data_easy

🔥19❤9👍3

1.02K viewsedited 18:52

EasyData

Всем доброго вечера!
Пора делать новый анонс ML-мероприятий на май🍒

🏦

C 13 по 16 мая Тинькофф проведёт серию митапов по системной аналитике, NLP и управление командами.
Формат участия: офлайн в Москве.
Регистрация и подробности: тут.

💳

16 мая в 11:00 можно послушать вебинар про разработку и сопровождение СУБД от Sber.
Формат участия: онлайн.
Регистрация: тут.

📞

17 мая пройдёт большая конференция по нескольким IT-направлениям от МТС "True Tech Day".
Формат участия: онлайн и офлайн в Москве.
Регистрация и подробности: тут.

🦜

17-19 мая пройдёт конференция "Women Talk" в формате TED Talks с 20-минутными докладами об интересных практиках применения soft и hard skills в области больших данных и аналитики.
Формат участия: онлайн и офлайн в Москве.
Регистрация и подробности: тут.

👾 21-22 мая состоится конференция от I'ML "Обучение, применение и сопровождение моделей в продакшене".
Формат участия: онлайн, также обратите внимание, что оно платное.
Подробности и регистрация: на официальной страничке (а ещё там можно найти любопытные записи докладов с прошедших конференций).

🦜

С 25 мая по 2 июня запланирован долгожданный Data Fest!
Формат участия: онлайн и офлайн в Москве, Санкт-Петербурге, Новосибирске, Ереване.
Регистрация (и для слушателей, и для докладчиков): тут.

❤️ А ещё Альфа-банк открыл набор на новую волну стажировок и менторскую программу.
Подать заявку на стажировку: тут.
Подать заявку на менторскую программу: тут.

Хорошего вечера и продуктивной рабочей недели!😁

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👏3👍2

910 viewsedited 16:04

EasyData

По статистике на 4-х из 5-ти собеседований обязательно попадается вопрос про метрики классификации. В этой теме можно придумать много занимательных задач + таким образом можно проверить сразу знание и ML, и математики (если вопрос не просто на определение). Их сложность, как обычно, зависит от места и уровня позиции, на которую Вы претендуете🙃

Собрала небольшую подборку нетривиальных вопросов, которые мне когда-либо попадались, в начале более теоретические, внизу более практическо-математические😁

6️⃣. Интерпретируйте смысл precision, recall, F-меры? (можно взять любой пример задачи классификации и на нём объяснить что есть что)
2️⃣. В чём главное отличие ROC-AUC от F-меры? (помимо формулы для расчёта)
3️⃣. В чём вероятностный смысл ROC-AUC? (по сути тоже интерпретация)
4️⃣. По какой формуле рассчитывается F-мера для задачи мультиклассификации? (скажем, для n классов)
5️⃣. Есть 3 классификатора, их ROC-AUC 0.2, 0.5 и 0.8. Какой из них самый плохой, а какой самый эффективный?
6️⃣. Есть классификатор, который для любого объекта возвращает значение 0.8, доля положительного класса в выборке составляет 20%. Чему будет равняться его ROC-AUC?
7️⃣. Есть одна обученная модель и датасет, разделённый на 2 части: для первой предсказания модели содержат большое число 1, ROC-AUC на этом наборе данных 0.5; для второй части датасета модель предсказывает больше -1, значение ROC-AUC здесь тоже 0.5. Изменится ли ROC-AUC, если объединить датасеты и пересчитать метрики?
8️⃣. Есть 3 модели бинарной классификации, у всех accuracy равно 0.8. На их основе создаётся ансамбль следующим образом: если хотя бы две модели голосуют "1", то итоговый ответ тоже "1"; аналогично для отрицательного класса. Какое значение accuracy для такой системы?

Пишите свои варианты решения в комментарии, на следующей неделе подведём итоги🌚

Хороших выходных!🌺❄️

#карьера@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥7👍6❤4🔥2😱1

903 viewsedited 17:31

EasyData

Доброго вечера, друзья!
Итак...🥁🥁🥁 Правильные ответы на задачи из предыдущего поста!

6️⃣. Предположим, мы строим модель оттока клиентов: класс 1 == клиент уходит, класс 0 == остаётся. По результатам работы модели тем клиентам, которых модель определила как "под угрозой оттока" будут сделаны персональные скидки.
📌 Precision покажет, какая доля клиентов из тех, кому мы сделали скидку, действительно в ней "нуждались" - т.е. собирались уходить. Точность оптимизирует ошибку первого рода - т.е. количество "впустую" разосланных скидок:)
📌 Recall покажет, какую долю действительно "отточных" клиентов модель угадала. Полнота оптимизирует ошибку второго рода - т.е. число клиентов под угрозой ухода, которых мы вовремя не распознаём.
📌 F-мера является объединением precision и recall, поэтому отражает меру денег, которую мы можем заработать посредством использования модели.

2️⃣. ROC-AUC, в отличие от F-меры, не зависит от порога и показывает ранжирующую способность данных на соответствующем таргете. При расчёте ROC-AUC мы используем таргет и ~~вероятности~~ степени уверенности модели (полученные из метода predict_proba). А F-мера рассчитывается для конкретного значения порога, в функцию подаются таргет и лейблы, присвоенные моделью (из метода predict). Соответственно, значение F-меры будет различным при разных порогах.

3️⃣. ROC-AUC отражает вероятность того, что для случайно взятого объекта 1-го класса оценка принадлежности к классу 1 будет выше, чем для случайно взятого объекта 0-го класса.

4️⃣. Формула среднего гармонического:)

5️⃣. ROC-AUC случайного классификатора равен 0.5.
Если ROC-AUC > 0.5 - значит, у модели есть ранжирующая способность, она «не случайная», а что-то «понимает».
Если ROC-AUC < 0.5 - это, на самом деле, тоже неплохо, ранжирующая способность есть, просто в таргете перепутаны классы - если 0 и 1 поменять местами, то 0.2 превратится в 0.8.
Таким образом, самый лучший классификатор с ROC-AUC = 0.8, потом идет 0.2 (по сути то же самое, что и первый, но его нужно немного модифицировать), и потом уже случайный с метрикой 0.5.

6️⃣. Здесь правильный ответ 0.5:)
При построении графика ROC-AUC в осях TPR = TP / (TP + FN) и FPR = FP / (FP + TN) у нас получится только две различных точки: (0, 0) и (1, 1), т.к. модель при пороге < 0.8 будет возвращать все единицы, а при пороге > 0.8 все нули (попробуйте построить матрицу ошибок для обоих случаев). Соответственно, через эти две точки мы проведём прямую, площадь под которой равна 0.5.

7️⃣. Здесь верный ответ не изменится.
Значение ROC-AUC равно 0.5, когда модель не способна различать классы лучше, чем случайное угадывание - т.е. в таких случаях она фактически не использует информацию о признаках для различения классов.
Если объединить датасеты и пересчитать метрики, ROC-AUC останется 0.5, т.к. для объединённого датасета ситуация не улучшится - модель равносильна случайному алгоритму.
PS: можете рассмотреть на примере классификатора из предыдущей задачи.

8️⃣. По условию каждая модель голосует "1" или "0", поэтому возможны следующие ситуации, предшествующие принятию итогового решения:
📌 Две модели проголосовали одинаково, а решение третьей отличается: точность такой системы 0.8*0.8*0.2.
Теперь учтём, что "третьей несогласной" моделью может быть любая из них, поэтому нужно домножить полученное значение на число способов составить комбинации из {1, 1, 0}, их три: 001, 010, 100.
📌 Три модели проголосовали одинаково - точность такой системы просто 0.8*0.8*0.8.
А теперь сложим эти два случая - это и будет итоговый ответ: 3*0.8*0.8*0.2 + 0.8*0.8*0.8 = 0.896 (воспользовались правилом суммы).

Удачной недели!🤗

#карьера@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤5👍5

909 viewsedited 19:29

EasyData

ResumeWorded.pdf

2 MB

Привет, друзья!
Давно ли вы обновляли своё резюме? На этот счёт есть множество лайфхаков и советов от HR, как сделать лучше и на что обратить внимание. Но всё равно сложно понять, каков же объективный "идеал"🤔

Конечно, лучше всегда заручиться советом старшего товарища или квалифицированного HR-специалиста, но для базовой проверки к нам снова приходит на помощь ИИ, а именно - сервис resumeworded.com ✨

Что он умеет:
- анализировать резюме;
- персонализировать резюме под конкретную вакансию;
- оценивать профиль LinkedIn.

В каждом режиме сервис предоставляет подробную оценку и пишет развёрнутые рекомендации по улучшению, которые можно сразу автоматически применить (часть из них доступна в бесплатной версии).
❗Важно: работает только для резюме на английском.

Мини-инструкцию как пользоваться сайтом держите в pdf, а я пошла всё исправлять😁

Хорошего вечера и продуктивной недели!

#карьера@data_easy
#полезный_ии@data_easy

🔥8❤5🥰2

828 viewsedited 18:26

EasyData

This media is not supported in your browser

VIEW IN TELEGRAM

Всем доброго вечера!
Часто ли вам приходилось работать с большими pandas-датафреймами? Если их размер достигает порядка нескольких миллионов строк, то время выполнения элементарных операций становится ощутимым😒
Дело в том, что pandas использует только одно ядро вашего компьютера, даже если доступно несколько. Поэтому можно в разы ускорить процесс обработки данных, если его распараллелить - в этом помогает библиотека Pandarallel, ловите несколько примеров её применения🐈

🐈

✨ Первым делом необходимо "включить" библиотеку: чтобы использовать все доступные процессоры, просто запустите


from pandarallel import pandarallel
pandarallel.initialize(progress_bar=True))

✨ Метод parallel_apply - "параллельный" аналог apply:


df = pd.DataFrame({    
    'A': range(1, 1000001),
    'B': range(1000001, 2000001)})

def my_func1(row):    
    return row['A'] + row['B']

df['C'] = df.parallel_apply(my_func1, axis=1)

✨ Подобие map из библиотеки называется parallel_map:


def my_func2(x): 
    return x * 2

df['D'] = df['C'].parallel_map(my_func2)

✨ И, наконец, "пареллельная" реализация groupby осуществляется также через parallel_apply:


df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one', 'two', 'two'],
    'C': range(1, 9)
})

result = (
    df.groupby(['A', 'B'])
    .parallel_apply(lambda x: x.sum()
)

Попробуйте запустить примеры на больших данных и сравнить скорость🏃‍♂️
Официальный репозиторий тут

😎

#аналитика@data_easy
#classic_ml@data_easy

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤5🍓3👍2

892 viewsedited 18:22

About

Blog

Apps

Platform