Библиотека задач по Data Science | тесты, код, задания
3.85K subscribers
664 photos
5 videos
377 links
Задачи и тесты по Data Science для тренировки и обучения.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/fa77bf4e

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://yangx.top/proglibrary/9197
加入频道
Какова цель A/B-тестирования?

A/B-тестирование — это статистическая проверка гипотез для рандомизированных экспериментов с двумя переменными, A и B.

Его цель — обнаружение любых изменений на веб-странице, чтобы максимизировать или повысить результат стратегии.
Какой из перечисленных алгоритмов не использует коэффициент скорости обучения (Learning Rate) в качестве одного из его гиперпараметров?
Anonymous Quiz
10%
Градиентный бустинг (Gradient Boosting) и AdaBoost
12%
Градиентный бустинг (Gradient Boosting) и Случайный лес (Random Forest)
16%
Extra Trees и AdaBoost
62%
Extra Trees и Случайный лес (Random Forest)
Опишите различные этапы аналитического проекта.

Понимание проблемы в бизнесе
Изучение и анализ данных
Подготовка данных для моделирования, включая удаление выбросов, преобразование переменных и обработку пропущенных значений
Запуск модели и анализ результатов для внесения соответствующих изменений или модификаций (итеративный процесс до достижения оптимальных результатов)
Проверка модели с использованием новых данных
Внедрение модели и отслеживание ее производительности для анализа эффективности
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Когда стоит применять глубокое обучение?

Глубокое обучение стоит применять в следующих случаях:

1. Когда у вас есть большой объем данных. Глубокое обучение может эффективно использовать большие наборы данных и извлекать из них сложные закономерности.

2. Когда задача требует извлечения сложных признаков. Глубокие нейронные сети могут автоматически извлекать иерархические признаки из данных, что делает их полезными в задачах комплексного распознавания или классификации.

3. Когда требуется высокая точность предсказаний. Глубокие модели могут достичь высокой точности в различных задачах, таких как распознавание изображений, обработка естественного языка или рекомендательные системы.

4. Когда у вас есть доступ к достаточным ресурсам. Для обучения глубоких моделей требуется большая вычислительная мощность и память. Поэтому для использования глубокого обучения необходимо иметь доступ к соответствующему оборудованию или облачным сервисам.

5. Когда нет явного понимания задачи или какие признаки следует использовать. Глубокое обучение может быть полезным в ситуациях, когда нет ясного представления о том, какие признаки следует использовать для решения задачи, так как нейронные сети могут автоматически изучить релевантные признаки из данных.

Однако стоит отметить, что глубокое обучение может быть вычислительнозатратным и требовать большого количества данных для обучения. Поэтому иногда более простые модели могут быть более подходящими вариантами, особенно если у вас ограниченные ресурсы или небольшой объем данных.
Каковы ключевые шаги аналитического проекта?

✍️ Изучение бизнес-проблемы и целей анализа.
✍️ Исследование данных и знакомство с ними.
✍️ Подготовка данных к моделированию путем их очистки (обнаружение выбросов и пропусков, трансформация переменных и т.д.)
✍️ Запуск модели и нахождение оптимальных гиперпараметров.
✍️ Валидация модели на новых данных.
✍️ Ввод модели в эксплуатацию и получение выводов на основе ее предсказаний.
Что такое модуль __init__.py?

Модуль __init__.py является частью организации пакетов (packages) в Python. Этот файл используется для определения директории как пакета и может содержать код и переменные, которые будут доступны при импорте пакета. Важно отметить, что __init__.py не является обязательным для всех директорий, но он необходим, чтобы Python интерпретировал директорию как пакет.
Какие виды аугментаций вы знаете?

Существует множество видов дополнений, которые можно использовать в зависимости от типа данных, с которыми вы работаете, включая геометрическое и числовое преобразование, PCA, обрезку, заполнение, сдвиг, введение шума и т. д.
Объясните, что такое регуляризация и почему она полезна

Регуляризация в области машинного обучения — прием, который заключается в наложении дополнительных ограничений на условие задачи с целью предотвратить переобучение системы или решить некорректно поставленную задачу. В большинстве случаев эти ограничения выражаются в виде штрафа за избыточную сложность модели.

Прогнозы модели должны затем минимизировать функцию потерь, вычисленную на регуляризованном обучающем наборе.
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
Запустится ли этот код на Python 3? Если да, то что он выведет?

sys.allow_boolean_assignment разрешает создавать переменные с именами, зарезервированными под идентификаторы типа bool. Поэтому этот код запустится и выведет "True is False".

Эта настройка введена в известном первоапрельском коммите, который до сих пор остался в коде интерпретатора. Если кандидат об этом знает, можно с уверенностью сказать, что он общается в должных профессиональных кругах и любят углубляться в детали.
Что будет выведено на экран после выполнения этого кода?

A) [11, 22, 33, 44, 55]

B) Ошибка, поскольку операция сложения не может быть применена к двум столбцам DataFrame.

C) Series([11, 22, 33, 44, 55], dtype: int64)

D) DataFrame с двумя столбцами 'A' и 'B'.

Ответ пишите в комментарии👇
👆 Верный ответ на предыдущую задачу: C

✏️ А сегодня придётся считать. Дана матрица ошибок (Confusion matrix) по модели, предсказывающей наличие заболевания у пациентов. «Yes» означает «Болен», «No» — «Здоров». Всего тест на болезнь сделали 165 человек. Модель предсказала, что больны 110 человек, а здоровы — 55. В реальности 105 человек больны, а 60 здоровы.

Значение какой метрики получается самым высоким?

A) Accuracy
B) Precision
C) Recall
D) Specificity

В комментариях есть подсказка 👇
👆 Верный ответ на предыдущую задачу: C

Вернёмся к Pandas и затронем работу со строками. Что выведет этот код?

A) ['example.com', 'example.com', 'example.com', 'example.com']

B) 0 example.com 1 example.com 2 example.com 3 example.com dtype: object

C) Series([], dtype: object)

D) Ошибка выполнения кода
Для какого типа зависимой переменной обычно используется логистическая регрессия?
Anonymous Quiz
24%
Непрерывная
58%
Бинарная
4%
Целочисленная
14%
Категориальная с ранжированием