Библиотека задач по Data Science | тесты, код, задания

Рассмотрите график выше. Какой метод трансформации данных будет наиболее эффективным для начала? Предположим, что цель – найти линейную зависимость между roomsPerPerson и ценой дома.

Anonymous Quiz

15%

Z-score

Clipping

12%

Биннинг c квантильными границами

66%

Логарифмическое масштабирование

241 voters976 views13:00

Библиотека задач по Data Science | тесты, код, задания

✍️ Воскресный разбор сложных задач недели

1️⃣ L2-регрессия добавляет штраф к функции потерь, пропорциональный квадрату нормы коэффициентов. А L1-регрессия добавляет штраф, пропорциональный норме коэффициентов без возведения в квадрат. Таким образом, первый метод регуляризации стремится уменьшить влияние менее значимых признаков, уменьшая их коэффициенты, но редко приводит к тому, что они становятся строго равными нулю. А вот во втором случае может произойти зануление.

Поэтому если мы понимаем, что нам важны все признаки и не хотим избавляться от каких-то из них, лучше использовать L2-регрессию.

2️⃣ Давайте рассмотрим все методы трансформации данных из вопроса:
▫️Z-score — хороший выбор, если выбросы в данных не экстремальные. Однако по графику видно, что аномалии довольно значительные.
▫️Биннинг с квантильными границами — мог бы подойти, если бы данные были асимметричны, но в данном случае асимметрия частично вызвана несколькими экстремальными выбросами. Кроме того, мы хотим, чтобы модель обучилась линейной зависимости. Поэтому следует оставить показатель roomsPerPerson числовым, а не преобразовывать его в категории.
▫️Логарифмическое масштабирование — подошло бы, если бы данные подчинялись степенному закону. Однако эти данные подчиняются нормальному распределению.
▫️Clipping — подойдёт для начала анализа, так как в наборе данных присутствуют экстремальные выбросы. Можно убрать их перед применением других методов нормализации.

#разбор_задач

1.1K views13:00

Библиотека задач по Data Science | тесты, код, задания

Зачем применять функцию Softmax к логитам, которые даёт на выход модель классификации последовательностей?

Anonymous Quiz

10%

Она сглаживает логиты, делая их более надёжными

10%

Она применяет к логитам нижнюю и верхнюю границы, делая их понятными

80%

Общая сумма выходов становится равной 1, что приводит к возможной вероятностной интерпретации

215 voters916 views12:00

Библиотека задач по Data Science | тесты, код, задания

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

1.1K views20:01

Библиотека задач по Data Science | тесты, код, задания

1.0K views12:00

Библиотека задач по Data Science | тесты, код, задания

Каким будет вывод кода с картинки выше?

Anonymous Quiz

{40, 10, 50, 20, 60, 30}

10%

{40, ’10’, 50, 20, 60, 30}

64%

{40, 10, ’10’, 50, 20, 60, 30}

24%

SynatxError

237 voters1.1K views12:00

Библиотека задач по Data Science | тесты, код, задания

1.0K views12:00

Библиотека задач по Data Science | тесты, код, задания

Что выведет код с картинки выше?

Anonymous Quiz

201 voters1.1K views12:00

Библиотека задач по Data Science | тесты, код, задания

1.1K views12:00

Библиотека задач по Data Science | тесты, код, задания

Что выведет код с картинки выше?

Anonymous Quiz

233 voters1.1K views12:00

Библиотека задач по Data Science | тесты, код, задания

Что означает высокий VIF у предиктора в модели линейной регрессии?

Anonymous Quiz

предиктор не значимый

19%

предиктор значимый

68%

вероятно, существует мультиколлинеарность, связанная с этим предиктором

значения этого предиктора стоит логарифмировать

191 voters1.0K views13:02

Библиотека задач по Data Science | тесты, код, задания

⚡️

Proglib запускает канал про ИИ в сфере видео

Вот несколько топовых постов за последнее время:

⭐️Инструмент, который сам делает короткие вертикальные видео из ваших длинных роликов, например, на ютуб
⭐️Подборка нейро-генераторов видео с пробным периодом
⭐️Анонс ИИ-«нетфликса», который будет штамповать вам мультики по запросам

👉

Подписывайтесь!

Please open Telegram to view this post

VIEW IN TELEGRAM

932 views07:12

Библиотека задач по Data Science | тесты, код, задания

В каких темах вы ориентируетесь хуже всего?

Anonymous Poll

Математический анализ

34%

Теория вероятностей

541 voters3.8K views13:01

Библиотека задач по Data Science | тесты, код, задания

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

928 views06:03

Библиотека задач по Data Science | тесты, код, задания

Помимо метода .pivot_table() DataFrame в Pandas также поддерживают .pivot(). Какое из следующих утверждений является верным?

Anonymous Quiz

11%

Метод .pivot() поддерживает многоуровневые индексы, а .pivot_table() — нет

Метод .pivot() более мощный, чем .pivot_table()

45%

Метод .pivot_table() позволяет выполнять агрегационные вычисления над данными, а .pivot() — нет

39%

Оба метода имеют одинаковую функциональность, но .pivot() уже устарел

192 voters936 views13:00

Библиотека задач по Data Science | тесты, код, задания

✍️Библиотека программиста» находится в поиске автора оригинальных статей

Кто нужен?
● Энтузиасты (джуны и выше), которые держат руку на пульсе, читают помимо книг зарубежные техноблоги
● Энтузиасты, которым есть что сказать

Тематика
● DevOps
● В четырех случаях из пяти вы предлагаете тему статьи

Объем
● От 7 до 15 тыс. знаков без учета кода
● 2-3 статьи в месяц

Оплата
● 8к руб. за статью
● Работаем с самозанятыми (компенсируем налог), ИП

Я пишу «так себе», что делать?
Чтобы написать статью, которую не стыдно опубликовать, достаточно овладеть инфостилем. У нас есть бесплатный курс для начинающих копирайтеров «Статьи для IT: как объяснять и распространять значимые идеи». Время прохождения курса: 1-2 недели.

✉️Пишите на [email protected]

969 views11:17

About

Blog

Apps

Platform