Библиотека задач по Data Science | тесты, код, задания
3.85K subscribers
664 photos
5 videos
377 links
Задачи и тесты по Data Science для тренировки и обучения.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/fa77bf4e

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://yangx.top/proglibrary/9197
加入频道
Что такое сегментация объектов? Знаете ли вы какие-нибудь архитектуры для этого?

Сегментация объектов — это прогнозирование масок. Она не различает объекты. Архитектуры: Маска RCNN, UNet.
Зачем нам на самом деле нужны свертки? Разве мы не можем использовать для этого полносвязные слои? ‍

Полносвязному слою требуется один вес на каждое межуровневое соединение, а это означает, что количество весов, которые необходимо вычислить, быстро увеличивается по мере увеличения количества слоев и узлов на слой.
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
Легко ли распараллелить обучение модели случайного леса? Как мы можем сделать это?

Да, например R предоставляет простой способ распараллелить обучение случайных лесов на больших данных. Используется параметр multicombine, для которого можно установить значение TRUE для распараллеливания вычислений случайного леса.

rf .multicombine=TRUE, .packages='randomForest') %dopar% {
randomForest(x, y, ntree=ntree)
}
Знаете ли вы какие-либо методы уменьшения размерности?

✍️ Разложение по сингулярным значениям (SVD)
✍️ Анализ главных компонентов (PCA)
✍️ Линейный дискриминантный анализ (LDA)
✍️ T-distributed Stochastic Neighbor Embedding (t-SNE)
✍️ Автоэнкодеры
✍️ Преобразования Фурье и вейвлет-преобразования
В чем заключается проклятие размерности? Почему нас это волнует?

Данные только в одном измерении упакованы относительно плотно. Добавление размера растягивает точки по этому измерению, раздвигая их дальше друг от друга. Дополнительные измерения еще больше расширяют данные, делая данные большой размерности чрезвычайно разреженными. Это важно, потому что трудно использовать машинное обучение в ограниченном пространстве.
Для чего нужен Scrapy?

Scrapy — это фреймворк для извлечения данных из веб-сайтов. Он используется для автоматического сбора структурированных данных из веб-страниц, таких как цены товаров, информация о продуктах, контактные данные и многое другое.

Этот код создает веб-паука, который извлекает цены товаров с сайта example.com. Он использует CSS-селекторы для поиска элементов страницы, содержащих информацию о продуктах, и извлекает их название и цену.
Курсы для тех, кто хочет получить новые скиллы или перейти в другую компанию на грейд выше

🔥Начните с демо-доступа или бесплатных вебинаров с преподавателем

🔹 Математика для Data Science

Самый хардкорный курс по вышмату! Идеален для тех, кто переходит в DS.

🔹 Алгоритмы и структуры данных

Курс, который на практике познакомит со сложными алгоритмами и научит писать более короткий и эффективный код.

🔹 Базовые модели ML и приложения

Познакомит с основными моделями машинного обучения, заложите основу для дальнейшего изучения более сложных нейронных сетей

🔹Архитектуры и шаблоны
проектирования

Освойте основные паттерны проектирования и прокачайте навыки построения архитектуры программного обеспечения

Приятного обучения и ваш промокод на скидку 30% до 25 октября – MIDDLE
Что такое глубокое обучение?

Глубокое обучение — совокупность большого количества методов машинного обучения, основанных на имитации деятельности человеческого мозга в процессе обработки данных и принятия решений.

По сути они основаны на обучении представлениям, а не специализированным алгоритмам под определенные задачи. Из-за чего обучение нейронных сетей ведётся дольше, чем традиционное машинное обучение, но точность результатов получается выше.
Какова цель A/B-тестирования?

A/B-тестирование — это статистическая проверка гипотез для рандомизированных экспериментов с двумя переменными, A и B.

Его цель — обнаружение любых изменений на веб-странице, чтобы максимизировать или повысить результат стратегии.
Какой из перечисленных алгоритмов не использует коэффициент скорости обучения (Learning Rate) в качестве одного из его гиперпараметров?
Anonymous Quiz
10%
Градиентный бустинг (Gradient Boosting) и AdaBoost
12%
Градиентный бустинг (Gradient Boosting) и Случайный лес (Random Forest)
16%
Extra Trees и AdaBoost
62%
Extra Trees и Случайный лес (Random Forest)
Опишите различные этапы аналитического проекта.

Понимание проблемы в бизнесе
Изучение и анализ данных
Подготовка данных для моделирования, включая удаление выбросов, преобразование переменных и обработку пропущенных значений
Запуск модели и анализ результатов для внесения соответствующих изменений или модификаций (итеративный процесс до достижения оптимальных результатов)
Проверка модели с использованием новых данных
Внедрение модели и отслеживание ее производительности для анализа эффективности
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Когда стоит применять глубокое обучение?

Глубокое обучение стоит применять в следующих случаях:

1. Когда у вас есть большой объем данных. Глубокое обучение может эффективно использовать большие наборы данных и извлекать из них сложные закономерности.

2. Когда задача требует извлечения сложных признаков. Глубокие нейронные сети могут автоматически извлекать иерархические признаки из данных, что делает их полезными в задачах комплексного распознавания или классификации.

3. Когда требуется высокая точность предсказаний. Глубокие модели могут достичь высокой точности в различных задачах, таких как распознавание изображений, обработка естественного языка или рекомендательные системы.

4. Когда у вас есть доступ к достаточным ресурсам. Для обучения глубоких моделей требуется большая вычислительная мощность и память. Поэтому для использования глубокого обучения необходимо иметь доступ к соответствующему оборудованию или облачным сервисам.

5. Когда нет явного понимания задачи или какие признаки следует использовать. Глубокое обучение может быть полезным в ситуациях, когда нет ясного представления о том, какие признаки следует использовать для решения задачи, так как нейронные сети могут автоматически изучить релевантные признаки из данных.

Однако стоит отметить, что глубокое обучение может быть вычислительнозатратным и требовать большого количества данных для обучения. Поэтому иногда более простые модели могут быть более подходящими вариантами, особенно если у вас ограниченные ресурсы или небольшой объем данных.
Каковы ключевые шаги аналитического проекта?

✍️ Изучение бизнес-проблемы и целей анализа.
✍️ Исследование данных и знакомство с ними.
✍️ Подготовка данных к моделированию путем их очистки (обнаружение выбросов и пропусков, трансформация переменных и т.д.)
✍️ Запуск модели и нахождение оптимальных гиперпараметров.
✍️ Валидация модели на новых данных.
✍️ Ввод модели в эксплуатацию и получение выводов на основе ее предсказаний.
Что такое модуль __init__.py?

Модуль __init__.py является частью организации пакетов (packages) в Python. Этот файл используется для определения директории как пакета и может содержать код и переменные, которые будут доступны при импорте пакета. Важно отметить, что __init__.py не является обязательным для всех директорий, но он необходим, чтобы Python интерпретировал директорию как пакет.
Какие виды аугментаций вы знаете?

Существует множество видов дополнений, которые можно использовать в зависимости от типа данных, с которыми вы работаете, включая геометрическое и числовое преобразование, PCA, обрезку, заполнение, сдвиг, введение шума и т. д.
Объясните, что такое регуляризация и почему она полезна

Регуляризация в области машинного обучения — прием, который заключается в наложении дополнительных ограничений на условие задачи с целью предотвратить переобучение системы или решить некорректно поставленную задачу. В большинстве случаев эти ограничения выражаются в виде штрафа за избыточную сложность модели.

Прогнозы модели должны затем минимизировать функцию потерь, вычисленную на регуляризованном обучающем наборе.
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
Запустится ли этот код на Python 3? Если да, то что он выведет?

sys.allow_boolean_assignment разрешает создавать переменные с именами, зарезервированными под идентификаторы типа bool. Поэтому этот код запустится и выведет "True is False".

Эта настройка введена в известном первоапрельском коммите, который до сих пор остался в коде интерпретатора. Если кандидат об этом знает, можно с уверенностью сказать, что он общается в должных профессиональных кругах и любят углубляться в детали.