EasyData
946 subscribers
152 photos
10 videos
22 files
79 links
Добро пожаловать!
Меня зовут Мария Жарова, и это мой блог про науку о данных

Лайфхаки из будней MLщика, полезности по Data Science и ответы на вопросы, которые волнуют новичков и не только🌝

Автор @NaNCat
加入频道
Привет, друзья!
Позавчера пришло интересное письмо в рассылке МФТИ, делюсь с вами 💌

Если кратко, в понедельник 22 апреля в 19:00 по мск пройдёт открытая встреча по выбору карьерной траектории в Data Science👩‍💻
На ней совместно с опытным HR-консультантом Алёной Полетаевой обсудим:

🏷 Как изменился рынок IT за последние годы.
🏷 Какие в настоящий момент существуют направления в DS.
🏷 Основные тенденции в 2024 году.
🏷 Насколько важно сейчас профильное образование для начала карьеры.
🏷 Актуальные требования к специалистам начального и среднего уровней на примере конкретных вакансий.

Если начинаете или планируете искать работу в DS, обязательно приходите, подготовили для вас очень классный материал🤗

Зарегистрироваться можно по ссылке

UPD: Мероприятие перенесено с 15 апреля на 22 апреля👀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥65
Plotly.pdf
623.7 KB
«О нет, только не графики!» - часто слышу подобное от студентов. Действительно, построение графиков в питоне может показаться довольно муторным занятием: куча разных библиотек, везде свои названия методов и своеобразный синтаксис, в котором легко запутаться🙈
Главное преимущество - то что в питоне мы можем легко обработать и собрать нужные данные. И на самом деле, если один раз разобраться с библиотеками и иметь под рукой шпаргалку основных типов графиков в любимой библиотеке, это сильно упростит работу и избавит от необходимости выгружать данные и строить визуализации в сторонних программах. К тому же, при помощи некоторых библиотек можно легко построить очень оригинальные картинки, включая анимации:)

Итак, библиотеки для построения графиков в питоне:
🌟 pandas (да-да, и это самый простой и быстрый способ что-то нарисовать);
🌟 plotly (преимущество этой библиотеки - интерактивность);
🌟 matplotlib (классическая библиотека, графики - статичные изображения);
🌟 seaborn (более высокоуровневая надстройка над matplotlib).

Копировать шаблонный код для построения графиков откуда-либо нормально: в некоторых случаях он, действительно, бывает громоздким. И даже если выучили все методы и аргументы функций наизусть, писать с нуля одно и тоже не всегда эффективно😁

А пока ловите небольшую шпаргалку по plotly - в ней несколько примеров построения самых популярных видов графиков + парочка нестандартных визуализаций. Сам код и его копия в пдф во вложениях, в ноутбуке можно запустить интерактив:)

Всем красивых графиков!💅

#python@data_easy
#аналитика@data_easy
🔥199👍3
Всем доброго вечера!
Пора делать новый анонс ML-мероприятий на май🍒

🏦 C 13 по 16 мая Тинькофф проведёт серию митапов по системной аналитике, NLP и управление командами.
Формат участия: офлайн в Москве.
Регистрация и подробности: тут.

💳 16 мая в 11:00 можно послушать вебинар про разработку и сопровождение СУБД от Sber.
Формат участия:
 онлайн.
Регистрация: тут.

📞 17 мая пройдёт большая конференция по нескольким IT-направлениям от МТС "True Tech Day".
Формат участия: онлайн и офлайн в Москве.
Регистрация и подробности: тут.

🦜 17-19 мая пройдёт конференция "Women Talk" в формате TED Talks с 20-минутными докладами об интересных практиках применения soft и hard skills в области больших данных и аналитики.
Формат участия: онлайн и офлайн в Москве.
Регистрация и подробности: тут.

👾 21-22 мая состоится конференция от I'ML "Обучение, применение и сопровождение моделей в продакшене".
Формат участия: онлайн, также обратите внимание, что оно платное.
Подробности и регистрация: на официальной страничке (а ещё там можно найти любопытные записи докладов с прошедших конференций).

🦜 С 25 мая по 2 июня запланирован долгожданный Data Fest!
Формат участия: онлайн и офлайн в Москве, Санкт-Петербурге, Новосибирске, Ереване.
Регистрация (и для слушателей, и для докладчиков): тут.

❤️ А ещё Альфа-банк открыл набор на новую волну стажировок и менторскую программу.
Подать заявку на стажировку: тут.
Подать заявку на менторскую программу: тут.

Хорошего вечера и продуктивной рабочей недели!😁
Please open Telegram to view this post
VIEW IN TELEGRAM
8👏3👍2
По статистике на 4-х из 5-ти собеседований обязательно попадается вопрос про метрики классификации. В этой теме можно придумать много занимательных задач + таким образом можно проверить сразу знание и ML, и математики (если вопрос не просто на определение). Их сложность, как обычно, зависит от места и уровня позиции, на которую Вы претендуете🙃

Собрала небольшую подборку нетривиальных вопросов, которые мне когда-либо попадались, в начале более теоретические, внизу более практическо-математические😁

6️⃣. Интерпретируйте смысл precision, recall, F-меры? (можно взять любой пример задачи классификации и на нём объяснить что есть что)
2️⃣. В чём главное отличие ROC-AUC от F-меры? (помимо формулы для расчёта)
3️⃣. В чём вероятностный смысл ROC-AUC? (по сути тоже интерпретация)
4️⃣. По какой формуле рассчитывается F-мера для задачи мультиклассификации? (скажем, для n классов)
5️⃣. Есть 3 классификатора, их ROC-AUC 0.2, 0.5 и 0.8. Какой из них самый плохой, а какой самый эффективный?
6️⃣. Есть классификатор, который для любого объекта возвращает значение 0.8, доля положительного класса в выборке составляет 20%. Чему будет равняться его ROC-AUC?
7️⃣. Есть одна обученная модель и датасет, разделённый на 2 части: для первой предсказания модели содержат большое число 1, ROC-AUC на этом наборе данных 0.5; для второй части датасета модель предсказывает больше -1, значение ROC-AUC здесь тоже 0.5. Изменится ли ROC-AUC, если объединить датасеты и пересчитать метрики?
8️⃣. Есть 3 модели бинарной классификации, у всех accuracy равно 0.8. На их основе создаётся ансамбль следующим образом: если хотя бы две модели голосуют "1", то итоговый ответ тоже "1"; аналогично для отрицательного класса. Какое значение accuracy для такой системы?

Пишите свои варианты решения в комментарии, на следующей неделе подведём итоги🌚

Хороших выходных!🌺❄️

#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7👍64🔥2😱1
Доброго вечера, друзья!
Итак...🥁🥁🥁 Правильные ответы на задачи из предыдущего поста!

6️⃣. Предположим, мы строим модель оттока клиентов: класс 1 == клиент уходит, класс 0 == остаётся. По результатам работы модели тем клиентам, которых модель определила как "под угрозой оттока" будут сделаны персональные скидки.
📌 Precision покажет, какая доля клиентов из тех, кому мы сделали скидку, действительно в ней "нуждались" - т.е. собирались уходить. Точность оптимизирует ошибку первого рода - т.е. количество "впустую" разосланных скидок:)
📌 Recall покажет, какую долю действительно "отточных" клиентов модель угадала. Полнота оптимизирует ошибку второго рода - т.е. число клиентов под угрозой ухода, которых мы вовремя не распознаём.
📌 F-мера является объединением precision и recall, поэтому отражает меру денег, которую мы можем заработать посредством использования модели.

2️⃣. ROC-AUC, в отличие от F-меры, не зависит от порога и показывает ранжирующую способность данных на соответствующем таргете. При расчёте ROC-AUC мы используем таргет и вероятности степени уверенности модели (полученные из метода predict_proba). А F-мера рассчитывается для конкретного значения порога, в функцию подаются таргет и лейблы, присвоенные моделью (из метода predict). Соответственно, значение F-меры будет различным при разных порогах.

3️⃣. ROC-AUC отражает вероятность того, что для случайно взятого объекта 1-го класса оценка принадлежности к классу 1 будет выше, чем для случайно взятого объекта 0-го класса.

4️⃣. Формула среднего гармонического:)

5️⃣. ROC-AUC случайного классификатора равен 0.5.
Если ROC-AUC > 0.5 - значит, у модели есть ранжирующая способность, она «не случайная», а что-то «понимает».
Если ROC-AUC < 0.5 - это, на самом деле, тоже неплохо, ранжирующая способность есть, просто в таргете перепутаны классы - если 0 и 1 поменять местами, то 0.2 превратится в 0.8.
Таким образом, самый лучший классификатор с ROC-AUC = 0.8, потом идет 0.2 (по сути то же самое, что и первый, но его нужно немного модифицировать), и потом уже случайный с метрикой 0.5.

6️⃣. Здесь правильный ответ 0.5:)
При построении графика ROC-AUC в осях TPR = TP / (TP + FN) и FPR = FP / (FP + TN) у нас получится только две различных точки: (0, 0) и (1, 1), т.к. модель при пороге < 0.8 будет возвращать все единицы, а при пороге > 0.8 все нули (попробуйте построить матрицу ошибок для обоих случаев). Соответственно, через эти две точки мы проведём прямую, площадь под которой равна 0.5.

7️⃣. Здесь верный ответ не изменится.
Значение ROC-AUC равно 0.5, когда модель не способна различать классы лучше, чем случайное угадывание - т.е. в таких случаях она фактически не использует информацию о признаках для различения классов.
Если объединить датасеты и пересчитать метрики, ROC-AUC останется 0.5, т.к. для объединённого датасета ситуация не улучшится - модель равносильна случайному алгоритму.
PS: можете рассмотреть на примере классификатора из предыдущей задачи.

8️⃣. По условию каждая модель голосует "1" или "0", поэтому возможны следующие ситуации, предшествующие принятию итогового решения:
📌 Две модели проголосовали одинаково, а решение третьей отличается: точность такой системы 0.8*0.8*0.2.
Теперь учтём, что "третьей несогласной" моделью может быть любая из них, поэтому нужно домножить полученное значение на число способов составить комбинации из {1, 1, 0}, их три: 001, 010, 100.
📌 Три модели проголосовали одинаково - точность такой системы просто 0.8*0.8*0.8.
А теперь сложим эти два случая - это и будет итоговый ответ: 3*0.8*0.8*0.2 + 0.8*0.8*0.8 = 0.896 (воспользовались правилом суммы).

Удачной недели!🤗

#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥95👍5
ResumeWorded.pdf
2 MB
Привет, друзья!
Давно ли вы обновляли своё резюме? На этот счёт есть множество лайфхаков и советов от HR, как сделать лучше и на что обратить внимание. Но всё равно сложно понять, каков же объективный "идеал"🤔

Конечно, лучше всегда заручиться советом старшего товарища или квалифицированного HR-специалиста, но для базовой проверки к нам снова приходит на помощь ИИ, а именно - сервис resumeworded.com

Что он умеет:
- анализировать резюме;
- персонализировать резюме под конкретную вакансию;
- оценивать профиль LinkedIn.


В каждом режиме сервис предоставляет подробную оценку и пишет развёрнутые рекомендации по улучшению, которые можно сразу автоматически применить (часть из них доступна в бесплатной версии).
Важно: работает только для резюме на английском.

Мини-инструкцию как пользоваться сайтом держите в pdf, а я пошла всё исправлять😁

Хорошего вечера и продуктивной недели!

#карьера@data_easy
#полезный_ии@data_easy
🔥85🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
Всем доброго вечера!
Часто ли вам приходилось работать с большими pandas-датафреймами? Если их размер достигает порядка нескольких миллионов строк, то время выполнения элементарных операций становится ощутимым😒
Дело в том, что pandas использует только одно ядро вашего компьютера, даже если доступно несколько. Поэтому можно в разы ускорить процесс обработки данных, если его распараллелить - в этом помогает библиотека Pandarallel, ловите несколько примеров её применения🐈🐈🐈

Первым делом необходимо "включить" библиотеку: чтобы использовать все доступные процессоры, просто запустите

from pandarallel import pandarallel
pandarallel.initialize(progress_bar=True))


Метод parallel_apply - "параллельный" аналог apply:

df = pd.DataFrame({
'A': range(1, 1000001),
'B': range(1000001, 2000001)})

def my_func1(row):
return row['A'] + row['B']

df['C'] = df.parallel_apply(my_func1, axis=1)


Подобие map из библиотеки называется parallel_map:

def my_func2(x):
return x * 2

df['D'] = df['C'].parallel_map(my_func2)


И, наконец, "пареллельная" реализация groupby осуществляется также через parallel_apply:

df = pd.DataFrame({
'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
'B': ['one', 'one', 'two', 'two', 'one', 'one', 'two', 'two'],
'C': range(1, 9)
})

result = (
df.groupby(['A', 'B'])
.parallel_apply(lambda x: x.sum()
)


Попробуйте запустить примеры на больших данных и сравнить скорость🏃‍♂️
Официальный репозиторий тут 😎

#аналитика@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥145🍓3👍2
Привет, друзья!
Хорошие новости для тех, кто интересуется LLM😎
7 июня состоялся релиз новой версии Qwen2 - LLM от Alibaba.

На всякий случай, LLM (large language model) - это мощные алгоритмы, способные понимать и генерировать текст, который неотличим от человеческого. В отличие от традиционных NLP-моделей, которые обучены под конкретные узкоспециализированные цели, LLM обучены на огромных объемах текстовых данных, что позволяет им решать широкий спектр задач без необходимости дополнительной настройки.

По большинству тестов Qwen2 сопоставима или даже превосходит новейшие версии GPT-4 и Llama3📈

Важное в цифрах про Qwen2:
🤯 понимает 27 языков, включая русский
🤯 выпущена в 5 размерах от 0.5B до 72B - т.е. в самой “большой” версии 72 млрд параметров
🤯 поддерживаемый контекст от 32k до 128k - т.е. модель способна учитывать от 32 до 128 тысяч токенов (слов, частей слов или символов) при обработке одного фрагмента текста
🤯 все версии, кроме последней, выпущены под лицензией Apache 2.0

Что это значит?
На данный момент самой популярной LLM в открытом доступе является Llama3, но если верить тестам, новая Qwen2 во многом её превосходит (особенно в написании кода, решении математических задач😁). Так что для промышленных решений можно смело тестировать новую китайскую разработку.

➡️ Официальная статья с тестами и исследованиями тут
➡️ Репозиторий модели тут
➡️ Страничка на Hugging Face тут

Продуктивной рабочей недели!🤗

#nlp@data_easy
#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥134
Доброго вечера друзья!💫
Сегодня вышла наша очередная совместная со SkillFactory статья про свёрточные нейросети, на этот раз не только в блоге, но и на Хабре😊
Рассказ нацелен на новичков: постарались просто описать строение такой архитектуры, где её лучше всего применять и какие видятся тренды в развитии. Так что если давно хотели разобраться в том, что такое свёртка - это знак!😁

Всем хороших выходных!☀️

#cv@data_easy
🔥127👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Доброго летнего вечера!🌅
Представьте, что вам дали некоторый датасет и попросили его проанализировать/обучить модель на этих данных. Что бы вы сделали в самую первую очередь? Большинство ответят прочитали бы и вывели head😁
В целом, это верный ответ, здесь же можно добавить info() и describe().

Но есть кое-что получше: библиотека ydata-profiling для первичного анализа данных и проверки их качества.
С помощью неё можно автоматически получить подробный и красивый отчёт, который позволит быстро ознакомиться с основными характеристиками данных и сразу выявить возможные проблемы.

За несколько минут можно создать отчёт, включающий:
⛵️ общий анализ датасета с разделом предупреждений, на которые стоит обратить внимание в первую очередь
⛵️ детальный отчёт по каждой переменной, включая наглядное представление дубликатов, выбросов и статистических характеристик
⛵️ распределения для числовых признаков и "облако слов" для категориальных
⛵️ взаимные зависимости числовых признаков
⛵️ наличие пропусков
⛵️ и, конечно, аналог head и tail

Создать отчёт очень просто!
1. Для начала установите библиотеку:

pip install ydata-profiling

2. Далее загрузите ваш датафрейм и сгенерируйте отчет, это займёт всего несколько минут:

import pandas as pd
from ydata_profiling import ProfileReport

# Загружаем данные
data = pd.read_csv("data.csv")

# Генерируем отчёт
profile = ProfileReport(data, title="Мой_первый_отчёт")

3. Готовый отчёт можно вывести и посмотреть прямо в ноутубке или сохранить в html:

profile.to_notebook_iframe()

# Или сохраняем отчет вx HTML файл
profile.to_file("Мой_первый_отчёт.html")


На всякий случай, официальная документация тут.
В видео трейлер с демонстрацией основных возможностей библиотеки💫

Удачной недели!🙂

#аналитика@data_easy
#classic_ml@data_easy
#python@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥7👍1🐳1
Добрый вечер, друзья!🌞
В этот жаркий денёк хочу поделиться одной очень интересной новинкой в области ИИ - сервисом Luma Dream Machine, который способен оживлять фотографии и генерировать видео.

Вроде про что-то такое мы уже слышали, но отличие Luma в том, что в этом инструменте больше функций + его можно бесплатно протестировать. Вот какие возможности доступны на сегодняшний день:

🎞️ Вы пишете текстовый запрос - сервис генерирует несколько секундное видео
🎞️ Вы загружаете фото + пишете текст, какое видео создать на его основе - сервис «оживит» картинку в соответствии с запросом
🎞️ Вы загружаете 2 фото: начало и конец мини-видео + пишете текст, что создать - сервис выдает результат

Зарегистрироваться можно на сайте в пару кликов, в месяц на один аккаунт доступно 30 бесплатных генераций. Создатели в разных источниках пишут, что видео создаются за 2-4 минуты, но у меня грузится уже полчаса😁 Может быть, вам повезет больше🙃

Интересно, до чего дальше дойдёт ИИ🤯

#полезный_ии@data_easy
🔥138
Привет, друзья!
В прошлом посте, посвящённом задачам с собеседований, обсудили с вами метрики классификации. Как показывает практика, вторая по популярности тема - про деревья и ансамбли над ними🌳🌲🌴
Почему так? Во-первых, бустинги - самые эффективные алгоритмы на табличных данных; а во-вторых, это довольно обширная тема, в которой можно придумать много вопросов. Ловите небольшой список😁

1️⃣Какое максимальное количество листьев у бинарного дерева глубины 4?

2️⃣Назовите общие типы ансамблирования. Какое можно дать определение в этих терминах алгоритмам случайного леса и градиентного бустинга?

3️⃣Можно ли построить ансамбль из линейных регрессий? Будет ли это эффективнее ансамбля над решающими деревьями?

4️⃣В чем заключается "случайность" в алгоритме случайного леса?

5️⃣Назовите три самых популярных алгоритма бустинга (для них же существуют одноимённые библиотеки).

6️⃣В чём главный недостаток дерева решений относительно линейной регрессии? (Подсказка: подумайте, как ведут себя эти алгоритмы на тестовой выборке, диапазон значений признаков для которой шире тренировочной)

7️⃣Как изменится качество алгоритма случайного леса, если из него удалить одно решающее дерево?

8️⃣Как изменится качество бустинга, если из него удалить самое первое решающее дерево?

Пишите в комментариях, что думаете👇
На следующей неделе будем подводить итоги🙃

Удачной недели!🌺

#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥6🤯1
Доброго вечера, друзья!
В свете последних новостей про ютуб наконец-то собралась начать вести его😅
Первый содержательный shorts про тренды в DS 2024 уже на канале😁
Пишите, что вам было бы интересно посмотреть👀

#карьера@data_easy
🔥97😁5😍2
Привет, друзья!
Итак, ответы на вопросы про деревья🌲🌳🌴

1️⃣В бинарном дереве у каждой вершины может быть не более 2-х потомков. Получается: имеется одна корневая вершина; не более 2-х на втором «уровне»; не более 4-х на третьем; не более 8-ми на четвертом. Листьями будем считать как бы пятый уровень — их будет не более 16-ти. Если проследить логику, можно вывести общую формулу: максимальное число листьев для бинарного дерева глубины n равно 2^n.

2️⃣Из общих типов ансамблирования можно назвать бэггинг, стекинг, блендинг и бустинг (почитать про них подробнее можно, например, здесь). В этих терминах случайный лес — это бэггинг решающих деревьев, а градиентный бустинг — бустинг над решающими деревьями:)

3️⃣Технически сделать ансамбль из линейных моделей никто не запрещает, но комбинация линейных моделей будет той же самой линейной моделью — поэтому что-то более эффективное и качественное мы вряд ли получим. Деревья же являются нелинейными алгоритмами, поэтому ансамбли над ними помогают находить новые сложные зависимости.

4️⃣Первая «случайность» в случайном лесе — это случайная подвыборка, на которой обучается каждое дерево. А вторая — выбор наилучшего признака для каждого следующего разбиения в отдельном дереве также выбирается не из всех возможных, а из случайного набора меньшего размера (полный алгоритм можно посмотреть здесь в разделе «Алгоритм обучения классификатора»).

5️⃣XGBoost, LightGBM, CatBoost 🐈

6️⃣Деревья, в отличие от линейной регрессии, не умеют экстраполировать предсказания — то есть «продлевать» зависимость на значениях выборки вне тренировочной.

7️⃣Случайный лес — это усредненные предсказания отдельных независимых деревьев. Поэтому если убрать одно дерево, среднее тоже по идее должно поменяться. Но за счёт того, что деревьев в «лесе» обычно много, удаление одного почти не повлияет на качество.

8️⃣Бустинг тоже строится из отдельных деревьев, но они не являются независимыми, каждое следующее улучшает работу предыдущих. Поэтому если выбросить хотя бы одно дерево из этой системы, общее качество системы ухудшится.

Кстати, по данным аналитики hh август и раняя осень — лучшее время для поиска вакансий📊 Об этом чуть позже, а пока отдыхающим хорошего отпуска!🏖️

#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥5
Всем привет!
Хочу поделиться ещё одной вышедшей статьёй — про трансферное обучение
По-другому этот приём в ML часто называют дообучение или использование предобученных моделей. При недостатке данных или ресурсов для обучения такой метод может сильно выручить и позволит достичь более высокого качества, чем при обычном обучении «с нуля».
И обязательно берите на заметку «хранилища» предобученных моделей и весов — в библиотеках PyTorch, TensorFlow, а также на HuggingFace и RoboFlow🌸(ссылки и примеры кода есть в статье).
В конце ссылки на полезную литературу😊

Всем успехов!💐

#cv@data_easy
#nlp@data_easy
#аудио@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥105👍4
С первым днём осени и днём знаний! 🍂
Как мы помним, осень - самое продуктивное время года и лучшее время для поиска работы😉 Мир просыпается от сезона летних отпусков, и уже в сентябре можно созерцать несколько интересных ML-событий:

🔥 Во-первых, это Practical ML conf от Яндекс. Как всегда, анонсировано много технических докладов по всем DS-сферам.
Когда: 14 сентября.
Формат участия: очно в Москве + онлайн.
Регистрация: тут.

🔥 Во-вторых, обширная IT-конференция E-CODE от Ozon. Кстати, ожидаются выступления экспертов не только из DS.
Когда: 28-29 сентября (data science только 29-го).
Формат участия: очно в Москве + онлайн.
Регистрация: тут.

🔥 Для ищущих работу в аналитике Яндекс запускает очередной "1-2 day offer" - за выходные можно пройти все этапы собеседований и получить приглашение на работу.
Когда: 7-8 сентября.
Формат участия: онлайн.
Регистрация: тут (обратите внимание, что до 5-го сентября нужно решить задачи на платформе).

🔥 И ещё Тинькофф Т-банк открыл сезон осенних стажировок. Список направлений пополняется.
Регистрация: тут.

Любопытно, что в сети появилось довольно много платных конференций и митапов, анонс открытых мероприятий пока небогат:(
Но будем ждать😁 Пусть новый сезон принесет вам вдохновение, свежие идеи и много ярких моментов!🍁
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍75
Привет, друзья!👋
Пора менять закреп — недавно я начала новый этап в своей карьере, теперь работаю Data Scientist'ом в WildBerries🛍 Занимаюсь разработкой рекомендательных систем, поэтому приходите с любой обратной связью и пожеланиями к сервису😁
Рекомендательные алгоритмы играют важную роль в работе маркетплейса. Система довольно сложная и комплексная, даже определить точное количество моделей — задача не из простых🙈
С приходом в компанию первое, что я для себя открыла — несколько полезных лайфхаков для поиска нужных товаров, не могу не поделиться ими с вами!

🍒Похожие товары🍒
Часто случается, что вы ищете какой-то товар, но никак не получается найти тот самый, нужного размера, цвета и формы...
В этом случае переходим на карточку примерно подходящего товара и в правом нижнем углу фото нажимаем на "похожие". Нас тут же перекидывает на страничку рекомендаций, среди которых может оказаться что-то подходящее.

🫐Сопутствующие товары🫐
Для тех, кто любит интересные идеи, но не смотрит группы "находки с WB". Вдохновиться можно, перейдя на страничку корзины, в самом низу будет лента "с этим покупают..." Это рекомендации, составленные напрямую к товарам, лежащим в вашей корзине, но сами они из других категорий. Например, если хочется что-то для дома, можно собрать корзину из нескольких товаров похожей тематики и полистать рекомендации
(эту функцию лучше тестировать с веб-версии на сайте).

🍓Похожие по фотографии🍓
Это новая классная фишка, о которой пока не все знают, позволяет по фотографии предмета найти такой же или максимально похожий среди всего ассортимента маркетплейса. Достаточно нажать на значок фотоаппарата в строке поиска и загрузить в сервис изображение.


Не прощаюсь с любимой темой данных, а впереди нас ждёт ещё больше полезных постов 🐈
Спасибо, что остаётесь со мной!❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍6🤩5👏3