Библиотека задач по Data Science | тесты, код, задания

Рассмотрите график выше. Какой метод трансформации данных будет наиболее эффективным для начала? Предположим, что цель – найти линейную зависимость между roomsPerPerson и ценой дома.

Anonymous Quiz

15%

Z-score

Clipping

12%

Биннинг c квантильными границами

66%

Логарифмическое масштабирование

241 voters977 views13:00

Библиотека задач по Data Science | тесты, код, задания

✍️ Воскресный разбор сложных задач недели

1️⃣ L2-регрессия добавляет штраф к функции потерь, пропорциональный квадрату нормы коэффициентов. А L1-регрессия добавляет штраф, пропорциональный норме коэффициентов без возведения в квадрат. Таким образом, первый метод регуляризации стремится уменьшить влияние менее значимых признаков, уменьшая их коэффициенты, но редко приводит к тому, что они становятся строго равными нулю. А вот во втором случае может произойти зануление.

Поэтому если мы понимаем, что нам важны все признаки и не хотим избавляться от каких-то из них, лучше использовать L2-регрессию.

2️⃣ Давайте рассмотрим все методы трансформации данных из вопроса:
▫️Z-score — хороший выбор, если выбросы в данных не экстремальные. Однако по графику видно, что аномалии довольно значительные.
▫️Биннинг с квантильными границами — мог бы подойти, если бы данные были асимметричны, но в данном случае асимметрия частично вызвана несколькими экстремальными выбросами. Кроме того, мы хотим, чтобы модель обучилась линейной зависимости. Поэтому следует оставить показатель roomsPerPerson числовым, а не преобразовывать его в категории.
▫️Логарифмическое масштабирование — подошло бы, если бы данные подчинялись степенному закону. Однако эти данные подчиняются нормальному распределению.
▫️Clipping — подойдёт для начала анализа, так как в наборе данных присутствуют экстремальные выбросы. Можно убрать их перед применением других методов нормализации.

#разбор_задач

1.1K views13:00

Библиотека задач по Data Science | тесты, код, задания

Зачем применять функцию Softmax к логитам, которые даёт на выход модель классификации последовательностей?

Anonymous Quiz

10%

Она сглаживает логиты, делая их более надёжными

10%

Она применяет к логитам нижнюю и верхнюю границы, делая их понятными

80%

Общая сумма выходов становится равной 1, что приводит к возможной вероятностной интерпретации

215 voters919 views12:00

Библиотека задач по Data Science | тесты, код, задания

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

1.1K views20:01

Библиотека задач по Data Science | тесты, код, задания

1.0K views12:00

Библиотека задач по Data Science | тесты, код, задания

Каким будет вывод кода с картинки выше?

Anonymous Quiz

{40, 10, 50, 20, 60, 30}

10%

{40, ’10’, 50, 20, 60, 30}

64%

{40, 10, ’10’, 50, 20, 60, 30}

24%

SynatxError

238 voters1.1K views12:00

Библиотека задач по Data Science | тесты, код, задания

1.0K views12:00

Библиотека задач по Data Science | тесты, код, задания

Что выведет код с картинки выше?

Anonymous Quiz

202 voters1.1K views12:00

Библиотека задач по Data Science | тесты, код, задания

1.1K views12:00

Библиотека задач по Data Science | тесты, код, задания

Что выведет код с картинки выше?

Anonymous Quiz

233 voters1.1K views12:00

Библиотека задач по Data Science | тесты, код, задания

Что означает высокий VIF у предиктора в модели линейной регрессии?

Anonymous Quiz

предиктор не значимый

19%

предиктор значимый

68%

вероятно, существует мультиколлинеарность, связанная с этим предиктором

значения этого предиктора стоит логарифмировать

191 voters1.0K views13:02

Библиотека задач по Data Science | тесты, код, задания

⚡️

Proglib запускает канал про ИИ в сфере видео

Вот несколько топовых постов за последнее время:

⭐️Инструмент, который сам делает короткие вертикальные видео из ваших длинных роликов, например, на ютуб
⭐️Подборка нейро-генераторов видео с пробным периодом
⭐️Анонс ИИ-«нетфликса», который будет штамповать вам мультики по запросам

👉

Подписывайтесь!

Please open Telegram to view this post

VIEW IN TELEGRAM

934 views07:12

Библиотека задач по Data Science | тесты, код, задания

В каких темах вы ориентируетесь хуже всего?

Anonymous Poll

Математический анализ

34%

Теория вероятностей

542 voters3.8K views13:01

Библиотека задач по Data Science | тесты, код, задания

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

930 views06:03

About

Blog

Apps

Platform