Библиотека задач по Data Science | тесты, код, задания
3.86K subscribers
641 photos
5 videos
352 links
Задачи и тесты по Data Science для тренировки и обучения.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/fa77bf4e

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://yangx.top/proglibrary/9197
加入频道
Что лежит в переменной result с картинки выше?
Anonymous Quiz
26%
[5 7 9]
12%
[9 12]
39%
[6 15]
22%
[3 7 11]
❗️Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉авторов в наше медиа proglib.io
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут.

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾
Please open Telegram to view this post
VIEW IN TELEGRAM
На графике выше показано, как оценки отелей зависят от типа путешественника. Выберите ответ, который лучше всего описывает график
Anonymous Quiz
1%
Выбросов нет
12%
Типы Business и Families имеют наибольшее распределение оценок, поэтому у них есть выбросы
84%
У трёх типов из пяти есть выбросы
3%
Выброс есть только у типа Solo
Что такое расстояние Махаланобиса?

Это мера расстояния между векторами случайных величин. В отличие от Евклидова расстояния, которое просто измеряет прямое расстояние между двумя точками в пространстве, метрика Махаланобиса учитывает взаимосвязь между признаками.

Расстояние Махаланобиса нормализует данные относительно ковариационной матрицы, что позволяет учитывать различную дисперсию признаков. Математически расстояние Махаланобиса можно определить как меру несходства между двумя случайными векторами 𝑥 и 𝑦 из одного распределения вероятностей с матрицей ковариации 𝑆. Если матрица ковариации является единичной матрицей, то расстояние Махаланобиса становится равным расстоянию Евклида.

Эта метрика используется, например, для нахождения выбросов. Точка, имеющая наибольшее расстояние Махаланобиса до остального множества заданных точек, считается имеющей наибольшую значимость, так как она имеет наибольшее влияние на кривизну и на коэффициенты уравнения регрессии.

#разбор_задач
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
Что выведет код с картинки выше?
Anonymous Quiz
39%
[1 2 3]
19%
[1 5]
9%
Ошибка
32%
[1 3 5]
✍️ Какой метод заполнения пропущенных значений выбрать для модели логистической регрессии?

Это был вопрос без определённого правильного ответа. Действительно, выбор метода заполнения пропусков будет зависеть от характера данных и количества этих самых пропущенных значений. Однако в большинстве случаев, особенно когда данные имеют сложные структуры и количество пропущенных значений значительное, можно использовать множественную импутацию (multiple imputation). Рассмотрим все методы:

▪️Простое удаление всех записей с пропущенными значениями.
Этот метод может привести к значительному сокращению размера выборки. Однако, если вы понимаете, что можете без ущерба пожертвовать частью данных, то можно выбрать этот вариант.

▪️Заполнение средним.
Этот метод может исказить распределение данных и снизить дисперсию, что приводит к смещению оценок.

▪️Множественная импутация.
Этот метод более сложен. Он использует информацию из имеющихся данных для предсказания пропущенных значений. По сути, он позволяет сгенерировать якобы полные наборы данных. Это должно уменьшать смещение.

▪️Попарное удаление (pairwise deletion).
Этот метод использует всю доступную информацию для каждой пары переменных, но он может привести к несоответствиям и сложностям в интерпретации результатов, особенно в контексте многомерного анализа.

#разбор_задач