Библиотека задач по Data Science | тесты, код, задания
3.86K subscribers
642 photos
5 videos
353 links
Задачи и тесты по Data Science для тренировки и обучения.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/fa77bf4e

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://yangx.top/proglibrary/9197
加入频道
📈 Стать аналитиком Big Data: пошаговое руководство 2024

Big Data — это наборы данных очень больших размеров, которые также характеризуются многообразием и высокой скоростью обновления. Аналитики больших данных находят и исследуют в них закономерности с помощью специальных программных средств.

В нашей обновлённой статье рассказываем, какие знания, онлайн-курсы, подкасты и книги помогут начать карьеру в сфере Big Data без специального образования🧑‍🎓

🔗 Читать статью
🔗 Зеркало
По тренировочной выборке из 70 объектов был построен классификатор. Его качество проверили на тестовой выборке, состоящей из 30 элементов. Чему равна сумма чисел TP+FP+FN+TN из матрицы ошибок?
Anonymous Quiz
24%
100
12%
70
56%
30
9%
130
⚡️Proglib запускает канал про ИИ для генерации звука

Там мы будем рассказывать про все существующие нейросети, которые генерируют музыку и голос — с пошаговыми инструкциями, инструментами и лайфхаками.

⭐️генерация голоса и музыки
⭐️замена и перевод речи
⭐️распознавание звуков

👉Подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
Выберите правильное объявление функции fun1(), чтобы код выше успешно выполнялся.
Anonymous Quiz
26%
def fun1(**kwargs)
40%
def fun1(*data)
24%
def fun1(args*)
9%
Такое невозможно
Что выведет код с картинки выше?
Anonymous Quiz
36%
TypeError
39%
(100, 100)
25%
(200)
Рассмотрите график выше. Какой метод трансформации данных будет наиболее эффективным для начала? Предположим, что цель – найти линейную зависимость между roomsPerPerson и ценой дома.
Anonymous Quiz
15%
Z-score
8%
Clipping
12%
Биннинг c квантильными границами
66%
Логарифмическое масштабирование
✍️ Воскресный разбор сложных задач недели

1️⃣ L2-регрессия добавляет штраф к функции потерь, пропорциональный квадрату нормы коэффициентов. А L1-регрессия добавляет штраф, пропорциональный норме коэффициентов без возведения в квадрат. Таким образом, первый метод регуляризации стремится уменьшить влияние менее значимых признаков, уменьшая их коэффициенты, но редко приводит к тому, что они становятся строго равными нулю. А вот во втором случае может произойти зануление.

Поэтому если мы понимаем, что нам важны все признаки и не хотим избавляться от каких-то из них, лучше использовать L2-регрессию.

2️⃣ Давайте рассмотрим все методы трансформации данных из вопроса:
▫️Z-score — хороший выбор, если выбросы в данных не экстремальные. Однако по графику видно, что аномалии довольно значительные.
▫️Биннинг с квантильными границами — мог бы подойти, если бы данные были асимметричны, но в данном случае асимметрия частично вызвана несколькими экстремальными выбросами. Кроме того, мы хотим, чтобы модель обучилась линейной зависимости. Поэтому следует оставить показатель roomsPerPerson числовым, а не преобразовывать его в категории.
▫️Логарифмическое масштабирование — подошло бы, если бы данные подчинялись степенному закону. Однако эти данные подчиняются нормальному распределению.
▫️Clipping — подойдёт для начала анализа, так как в наборе данных присутствуют экстремальные выбросы. Можно убрать их перед применением других методов нормализации.

#разбор_задач
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Что выведет код с картинки выше?
Anonymous Quiz
24%
10
8%
7
50%
3
18%
Ошибка