Библиотека задач по Data Science | тесты, код, задания

❗️Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉авторов в наше медиа proglib.io
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут.

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾

Please open Telegram to view this post

VIEW IN TELEGRAM

1.0K views08:01

985 views12:01

Библиотека задач по Data Science | тесты, код, задания

Что выведет код с картинки выше?

Anonymous Quiz

[[5 11 17] [11 25 39] [17 39 61]]

[[35, 44], [44, 56], [53, 68]]

132 voters973 views12:01

Библиотека задач по Data Science | тесты, код, задания

812 views12:00

Библиотека задач по Data Science | тесты, код, задания

На графике выше показано, как оценки отелей зависят от типа путешественника. Выберите ответ, который лучше всего описывает график

Anonymous Quiz

Выбросов нет

12%

Типы Business и Families имеют наибольшее распределение оценок, поэтому у них есть выбросы

84%

У трёх типов из пяти есть выбросы

Выброс есть только у типа Solo

258 voters971 views12:00

Библиотека задач по Data Science | тесты, код, задания

Что такое расстояние Махаланобиса?

Это мера расстояния между векторами случайных величин. В отличие от Евклидова расстояния, которое просто измеряет прямое расстояние между двумя точками в пространстве, метрика Махаланобиса учитывает взаимосвязь между признаками.

Расстояние Махаланобиса нормализует данные относительно ковариационной матрицы, что позволяет учитывать различную дисперсию признаков. Математически расстояние Махаланобиса можно определить как меру несходства между двумя случайными векторами 𝑥 и 𝑦 из одного распределения вероятностей с матрицей ковариации 𝑆. Если матрица ковариации является единичной матрицей, то расстояние Махаланобиса становится равным расстоянию Евклида.

Эта метрика используется, например, для нахождения выбросов. Точка, имеющая наибольшее расстояние Махаланобиса до остального множества заданных точек, считается имеющей наибольшую значимость, так как она имеет наибольшее влияние на кривизну и на коэффициенты уравнения регрессии.

#разбор_задач

943 views12:00

Библиотека задач по Data Science | тесты, код, задания

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

1.0K views06:02

Библиотека задач по Data Science | тесты, код, задания

966 views12:30

Библиотека задач по Data Science | тесты, код, задания

Что выведет код с картинки выше?

Anonymous Quiz

143 voters1.0K views12:30

Библиотека задач по Data Science | тесты, код, задания

970 views13:00

Библиотека задач по Data Science | тесты, код, задания

Что выведет этот код?

Anonymous Quiz

206 voters997 views13:00

Библиотека задач по Data Science | тесты, код, задания

959 views12:00

Библиотека задач по Data Science | тесты, код, задания

Что выведет этот код?

Anonymous Quiz

29%

Ошибка

56%

151 voters992 views12:00

Библиотека задач по Data Science | тесты, код, задания

Какой метод заполнения пропущенных значений вы бы выбрали для модели логистической регрессии?

Anonymous Poll

25%

простое удаление всех записей с пропущенными значениями

55%

заполнение средним

15%

множественная импутация

попарное удаление

253 voters913 views13:00

Библиотека задач по Data Science | тесты, код, задания

876 views12:00

Библиотека задач по Data Science | тесты, код, задания

Что выведет код с картинки выше?

Anonymous Quiz

30%

try ZeroDivisionError

260 voters863 views12:00

Библиотека задач по Data Science | тесты, код, задания

✍️ Какой метод заполнения пропущенных значений выбрать для модели логистической регрессии?

Это был вопрос без определённого правильного ответа. Действительно, выбор метода заполнения пропусков будет зависеть от характера данных и количества этих самых пропущенных значений. Однако в большинстве случаев, особенно когда данные имеют сложные структуры и количество пропущенных значений значительное, можно использовать множественную импутацию (multiple imputation). Рассмотрим все методы:

▪️Простое удаление всех записей с пропущенными значениями.
Этот метод может привести к значительному сокращению размера выборки. Однако, если вы понимаете, что можете без ущерба пожертвовать частью данных, то можно выбрать этот вариант.

▪️Заполнение средним.
Этот метод может исказить распределение данных и снизить дисперсию, что приводит к смещению оценок.

▪️Множественная импутация.
Этот метод более сложен. Он использует информацию из имеющихся данных для предсказания пропущенных значений. По сути, он позволяет сгенерировать якобы полные наборы данных. Это должно уменьшать смещение.

▪️Попарное удаление (pairwise deletion).
Этот метод использует всю доступную информацию для каждой пары переменных, но он может привести к несоответствиям и сложностям в интерпретации результатов, особенно в контексте многомерного анализа.

#разбор_задач

792 views12:00

About

Blog

Apps

Platform