Задача из раздела простых, показываем два простых решения
+-------------+---------+
| Column Name | Type |
+-------------+---------+
| id | int |
| name | varchar |
| salary | int |
| managerId | int |
+-------------+---------+
Нужно по заданной таблице вывести имена работников, которые зарабатывают больше своих менеджеров.
+-------------+---------+
| Column Name | Type |
+-------------+---------+
| id | int |
| name | varchar |
| salary | int |
| managerId | int |
+-------------+---------+
Нужно по заданной таблице вывести имена работников, которые зарабатывают больше своих менеджеров.
Допустим, у нас есть набор данных о продажах различных продуктов в разных магазинах. Мы хотим вычислить общую выручку и среднюю цену продукта для каждого магазина, какой код эффективнее:
Anonymous Quiz
56%
первый
44%
второй
Как называется метод, который использует стохастическую случайную выборку из тренировочных данных для создания разных версий модели и усредняет их предсказания для улучшения обобщающей способности?
Anonymous Quiz
15%
Data Augmentation
52%
Ensemble Learning
3%
Transfer Learning
30%
Gradient Boosting
Дан вариационный ряд. Если все варианты увеличить в одно и то же количество раз, то средняя арифметическая
Anonymous Quiz
21%
увеличится на то же число
12%
уменьшится во столько же раз
2%
уменьшится на то же число
65%
увеличится во столько же раз
Ранжирование - это операция, заключающаяся в том, что наблюдаемые значения случайной величины располагаются в порядке
Anonymous Quiz
26%
группирования
42%
неубывания
21%
расположения
11%
невозрастания
+-------------+-------+
| Column Name | Type |
+-------------+-------+
| pid | int |
| tiv_2015 | float |
| tiv_2016 | float |
| lat | float |
| lon | float |
+-------------+-------+
pid — это первичный ключ (столбец с уникальными значениями) для этой таблицы.
Каждая строка этой таблицы содержит информацию об одном полисе, где:
pid — идентификатор полиса страхователя.
tiv_2015 — общая стоимость инвестиций в 2015 году, а tiv_2016 — общая стоимость инвестиций в 2016 году.
lat — широта города страхователя. Гарантируется, что lat не равен NULL.
lon — долгота города страхователя. Гарантируется, что lon не равен NULL.
Напишите решение для отчета о сумме общей стоимости инвестиций в 2016 году tiv_2016 для всех страхователей, которые:
- имеют то же значение tiv_2015, что и один или несколько других держателей полисов
- не находятся в том же городе, что и любой другой страхователь (т. е. пары атрибутов (широта, долгота) должны быть уникальными).
Округлите tiv_2016 до двух десятичных знаков.
Решение разберем завтра
| Column Name | Type |
+-------------+-------+
| pid | int |
| tiv_2015 | float |
| tiv_2016 | float |
| lat | float |
| lon | float |
+-------------+-------+
pid — это первичный ключ (столбец с уникальными значениями) для этой таблицы.
Каждая строка этой таблицы содержит информацию об одном полисе, где:
pid — идентификатор полиса страхователя.
tiv_2015 — общая стоимость инвестиций в 2015 году, а tiv_2016 — общая стоимость инвестиций в 2016 году.
lat — широта города страхователя. Гарантируется, что lat не равен NULL.
lon — долгота города страхователя. Гарантируется, что lon не равен NULL.
Напишите решение для отчета о сумме общей стоимости инвестиций в 2016 году tiv_2016 для всех страхователей, которые:
- имеют то же значение tiv_2015, что и один или несколько других держателей полисов
- не находятся в том же городе, что и любой другой страхователь (т. е. пары атрибутов (широта, долгота) должны быть уникальными).
Округлите tiv_2016 до двух десятичных знаков.
Решение разберем завтра
Решение вчерашней задачи
Самый простой способ — создать 2 критерия, которые позже будут использоваться в .isin():
Это делается для того, чтобы мы удалили все строки, в которых lat и lon не уникальны (keep = False гарантирует, что мы не оставим ни одного дублированного экземпляра, как это обычно происходит) - оставьте только столбец pid:
Insurance.drop_duulates(subset = ['lat','lon'], Keep = False).pid
Та же логика, но на этот раз нам нужно дублировать:
not_uniq_tiv_2015 = Insurance.loc[insurance.duulated(subset = 'tiv_2015', Keep=False)].pid
После этого просто возвращаем сумму тех tiv_2016, которые остались после фильтрации по двум созданным ранее критериям.
Самый простой способ — создать 2 критерия, которые позже будут использоваться в .isin():
Это делается для того, чтобы мы удалили все строки, в которых lat и lon не уникальны (keep = False гарантирует, что мы не оставим ни одного дублированного экземпляра, как это обычно происходит) - оставьте только столбец pid:
Insurance.drop_duulates(subset = ['lat','lon'], Keep = False).pid
Та же логика, но на этот раз нам нужно дублировать:
not_uniq_tiv_2015 = Insurance.loc[insurance.duulated(subset = 'tiv_2015', Keep=False)].pid
После этого просто возвращаем сумму тех tiv_2016, которые остались после фильтрации по двум созданным ранее критериям.
Table: Users
+----------------+---------+
| Column Name | Type |
+----------------+---------+
| user_id | int |
| join_date | date |
| favorite_brand | varchar |
+----------------+---------+
user_id — это первичный ключ (столбец с уникальными значениями) таблицы.
В этой таблице содержится информация о пользователях веб-сайта интернет-магазинов, где пользователи могут продавать и покупать товары.
Table: Orders
+---------------+---------+
| Column Name | Type |
+---------------+---------+
| order_id | int |
| order_date | date |
| item_id | int |
| buyer_id | int |
| seller_id | int |
+---------------+---------+
order_id — это первичный ключ (столбец с уникальными значениями) таблицы.
item_id — это внешний ключ (ссылочный столбец) таблицы Items.
buyer_id и seller_id — внешние ключи таблицы Users.
Table: Items
+---------------+---------+
| Column Name | Type |
+---------------+---------+
| item_id | int |
| item_brand | varchar |
+---------------+---------+
item_id — это первичный ключ (столбец с уникальными значениями) этой таблицы.
Напишите решение в котором нужно найти для каждого пользователя: дату присоединения и количество заказов, которые он сделал в качестве покупателя в 2019 году.
Решение разбираем завтра
+----------------+---------+
| Column Name | Type |
+----------------+---------+
| user_id | int |
| join_date | date |
| favorite_brand | varchar |
+----------------+---------+
user_id — это первичный ключ (столбец с уникальными значениями) таблицы.
В этой таблице содержится информация о пользователях веб-сайта интернет-магазинов, где пользователи могут продавать и покупать товары.
Table: Orders
+---------------+---------+
| Column Name | Type |
+---------------+---------+
| order_id | int |
| order_date | date |
| item_id | int |
| buyer_id | int |
| seller_id | int |
+---------------+---------+
order_id — это первичный ключ (столбец с уникальными значениями) таблицы.
item_id — это внешний ключ (ссылочный столбец) таблицы Items.
buyer_id и seller_id — внешние ключи таблицы Users.
Table: Items
+---------------+---------+
| Column Name | Type |
+---------------+---------+
| item_id | int |
| item_brand | varchar |
+---------------+---------+
item_id — это первичный ключ (столбец с уникальными значениями) этой таблицы.
Напишите решение в котором нужно найти для каждого пользователя: дату присоединения и количество заказов, которые он сделал в качестве покупателя в 2019 году.
Решение разбираем завтра
Какая из следующих архитектур нейронных сетей часто используется для решения задачи сегментации изображений, где каждый пиксель изображения относится к определенному классу или объекту?
Anonymous Quiz
22%
VGG16
35%
U-Net
16%
LSTM
27%
ResNet
Какая архитектура нейронной сети наиболее подходит для задачи семантической сегментации, где каждый пиксель изображения помечается не только классом объекта, но и его точной границей?
Anonymous Quiz
49%
VGG16 (Visual Geometry Group 16)
11%
LSTM (Long Short-Term Memory)
27%
FCN (Fully Convolutional Network)
14%
GAN (Generative Adversarial Network)
Какая архитектура нейронной сети обычно используется для задачи распознавания речи, где аудио сигналы преобразуются в текстовую форму?
Anonymous Quiz
17%
CNN
20%
GRU
47%
LSTM
15%
GAN
В какой сфере машинного обучения и искусственного интеллекта преимущественно используется архитектура Stable Diffusion?
Anonymous Quiz
10%
Обработка естественного языка
75%
Генерация изображений
9%
Рекомендательные системы
6%
Автономные беспилотные автомобили
Что означает параметр alpha в архитектуре Stable Diffusion?
Anonymous Quiz
19%
Скорость обучения модели
30%
Коэффициент регуляризации
33%
Уровень шума в генерируемых данных
18%
Степень регуляции стабильности процесса генерации
В чем заключается ключевое отличие между GRU (Gated Recurrent Unit) и LSTM (Long Short-Term Memory)?
Anonymous Quiz
22%
GRU не имеет скрытого состояния и использует только входные данные.
22%
LSTM имеет больше параметров, чем GRU, что делает ее более мощной.
49%
GRU имеет меньше внутренних блоков и обладает меньшей сложностью, чем LSTM.
7%
GRU и LSTM идентичны и не имеют ключевых отличий.
В чем заключается принцип работы слоя пулинга (pooling layer) в свёрточной нейронной сети (CNN) и какие цели он обычно выполняет в обработке изображений?
Anonymous Quiz
35%
Слой пулинга выполняет операцию свёртки над изображением, усиливая выделение признаков.
8%
Слой пулинга увеличивает размер изображения, повышая его разрешение.
47%
Слой пулинга уменьшает размер пространственных измерений изображения.
10%
Слой пулинга добавляет аугментации к изображению, улучшая его качество.