Библиотека задач по Data Science | тесты, код, задания

✍️ Разбор сложных задач прошедшей недели

1️⃣ Чтобы ответить правильно на этот вопрос, важно было знать, что именно делает метод fillna() со значением method=‘ffill’ в Pandas. Он заполняет пропуски (NaN) последним наблюдаемым значением, то есть значением, стоящим перед пропущенным. Таким образом, ряд станет выглядеть как [5, 5, 5, 8, 10] и сумма будет 33.
2️⃣ Если во временном ряду много аномалий и выбросов, то можно применить сглаживание. Суть сглаживания и сводится к замене фактических значений ряда теми, что были получены после обработки колебаний. Самый простой способ сделать это — использовать скользящее среднее. По гладкому ряду могут быть лучше заметны тенденции.
3️⃣ В Python сравнение списков происходит поэлементно. В приведённом примере [1, 2, 3, 4] < [1, 2, 5] происходит так:
- Сначала сравниваются первые элементы обоих списков: 1 и 1. Они равны, поэтому сравнение продолжается.
- Затем сравниваются вторые элементы: 2 и 2. Они также равны.
- Далее сравниваются третьи элементы: 3 и 5. Поскольку 3 меньше 5, Python заключает, что первый список меньше второго, и возвращает True.

#разбор_задач

1.3K views11:01

Какую метрику лучше не использовать при наличии несбалансированных классов в данных?

Anonymous Quiz

353 voters1.0K views10:00

Библиотека задач по Data Science | тесты, код, задания

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

1.2K views20:01

Библиотека задач по Data Science | тесты, код, задания

1.1K views12:15

Библиотека задач по Data Science | тесты, код, задания

Что в данном куске кода означает переменная degree?

Anonymous Quiz

24%

Количество генерируемых полиномиальных признаков

Уровень сложности модели

65%

Максимальная степень для полиномиальных признаков

Минимальная степень для полиномиальных признаков

292 voters1.3K views12:15

Библиотека задач по Data Science | тесты, код, задания

От чего зависит размерность гиперплоскости в SVM?

Anonymous Quiz

Количества объектов во входной выборке

56%

Количества признаков во входных данных

12%

Количества целевых переменных

30%

От всего вышеперечисленного

284 voters1.1K views11:02

Библиотека задач по Data Science | тесты, код, задания

У вас есть линейная модель с двумя сильно коррелированными признаками. Эти два признака почти идентичны друг другу, но один из них содержит немного шума. Что будет с весами этих признаков, если мы используем L2-регуляризацию?

Anonymous Quiz

36%

У одного признака будет большой вес, а у другого — близкий к нулю

16%

У одного признака будет большой вес, а у другого — нулевой

49%

Оба признака будут иметь примерно равные, умеренные веса

315 voters1.2K views12:02

Библиотека задач по Data Science | тесты, код, задания

1.1K views12:01

Библиотека задач по Data Science | тесты, код, задания

Что выведет этот код?

Anonymous Quiz

416 voters1.1K views12:01

Библиотека задач по Data Science | тесты, код, задания

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⚡️Свершилось: канал с книгами только по Data Science

Мы создали для вас канал, куда будем публиковать самые полезные книги только для специалистов по Data Science. Подписывайтесь!

👉

Книги для дата сайентистов | Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

801 views09:02

Библиотека задач по Data Science | тесты, код, задания

У нас есть классификатор, который делит письма на «спам» и «не спам». Что будет с метрикой precision, если мы повысим порог классификации?

Anonymous Quiz

292 voters1.0K views12:00

Библиотека задач по Data Science | тесты, код, задания

✍️ Разбор сложных задач недели

1️⃣ Если мы имеем дело с дисбалансом классов, то использовать метрику Accuracy — плохая идея. Эта метрика отражает долю объектов, для которых модель правильно предсказала класс. Однако представьте, что в данных 80% объектов представлены классом 0, а 20% — классом 1. Тогда верно угаданных объектов класса 0 с высокой вероятностью будет много, а верно угаданных объектов класса 1 — мало. Но Accuracy всё равно получится высокой.
2️⃣ При L2-регуляризации мы добавляем к функции потерь штрафную часть, представленную суммой квадратов весов модели, умноженных на гиперпараметр регуляризации. Природа полученной функции не даёт регуляризации занулить веса полностью. Поэтому мы отметаем второй вариант в этом квизе.
Также стоит помнить, что L2-регуляризация штрафует большие веса сильнее, чем малые. В результате, этот метод приведёт веса коррелирующих признаков примерно к равным значениям, каждое из которых будет соответствовать приблизительно половине веса, который мог бы получиться у единственного признака.
3️⃣ Python умеет работать с комплексными числами. Если добавить к цифре букву j, то ошибки не будет. Когда мы создаём две переменные a и b и присваиваем им значение 1+2j, Python создаёт два отдельных объекта. Они расположены по разным адресам в памяти, что можно проверить, применив к a и b функцию id(). В свою очередь, оператор is сравнивает идентификаторы объектов, то есть проверяет, указывают ли две переменные на один и тот же объект в памяти.
4️⃣ Метрику Precision можно интерпретировать как долю объектов, названных моделью положительными и при этом действительно являющимися положительными. По формуле количество истинно положительных объектов (TP) мы делим на сумму истинно положительных объектов (TP) и ложно положительных объектов (FP).
Precision = TP / (TP + FP)
При изменении порога классификации соотношение TP и FP меняется. Если мы поднимем этот порог, то, скорее всего, количество FP объектов уменьшится, а следовательно значение Precision увеличится. С уверенностью мы это утверждать не можем, но чаще всего бывает именно так.

#разбор_задач

1.2K views12:00

About

Blog

Apps

Platform