Задача из раздела простых, показываем два простых решения
+-------------+---------+
| Column Name | Type |
+-------------+---------+
| id | int |
| name | varchar |
| salary | int |
| managerId | int |
+-------------+---------+
Нужно по заданной таблице вывести имена работников, которые зарабатывают больше своих менеджеров.
+-------------+---------+
| Column Name | Type |
+-------------+---------+
| id | int |
| name | varchar |
| salary | int |
| managerId | int |
+-------------+---------+
Нужно по заданной таблице вывести имена работников, которые зарабатывают больше своих менеджеров.
Допустим, у нас есть набор данных о продажах различных продуктов в разных магазинах. Мы хотим вычислить общую выручку и среднюю цену продукта для каждого магазина, какой код эффективнее:
Anonymous Quiz
56%
первый
44%
второй
Как называется метод, который использует стохастическую случайную выборку из тренировочных данных для создания разных версий модели и усредняет их предсказания для улучшения обобщающей способности?
Anonymous Quiz
15%
Data Augmentation
52%
Ensemble Learning
3%
Transfer Learning
30%
Gradient Boosting
Дан вариационный ряд. Если все варианты увеличить в одно и то же количество раз, то средняя арифметическая
Anonymous Quiz
21%
увеличится на то же число
12%
уменьшится во столько же раз
2%
уменьшится на то же число
65%
увеличится во столько же раз
Ранжирование - это операция, заключающаяся в том, что наблюдаемые значения случайной величины располагаются в порядке
Anonymous Quiz
26%
группирования
42%
неубывания
21%
расположения
11%
невозрастания
+-------------+-------+
| Column Name | Type |
+-------------+-------+
| pid | int |
| tiv_2015 | float |
| tiv_2016 | float |
| lat | float |
| lon | float |
+-------------+-------+
pid — это первичный ключ (столбец с уникальными значениями) для этой таблицы.
Каждая строка этой таблицы содержит информацию об одном полисе, где:
pid — идентификатор полиса страхователя.
tiv_2015 — общая стоимость инвестиций в 2015 году, а tiv_2016 — общая стоимость инвестиций в 2016 году.
lat — широта города страхователя. Гарантируется, что lat не равен NULL.
lon — долгота города страхователя. Гарантируется, что lon не равен NULL.
Напишите решение для отчета о сумме общей стоимости инвестиций в 2016 году tiv_2016 для всех страхователей, которые:
- имеют то же значение tiv_2015, что и один или несколько других держателей полисов
- не находятся в том же городе, что и любой другой страхователь (т. е. пары атрибутов (широта, долгота) должны быть уникальными).
Округлите tiv_2016 до двух десятичных знаков.
Решение разберем завтра
| Column Name | Type |
+-------------+-------+
| pid | int |
| tiv_2015 | float |
| tiv_2016 | float |
| lat | float |
| lon | float |
+-------------+-------+
pid — это первичный ключ (столбец с уникальными значениями) для этой таблицы.
Каждая строка этой таблицы содержит информацию об одном полисе, где:
pid — идентификатор полиса страхователя.
tiv_2015 — общая стоимость инвестиций в 2015 году, а tiv_2016 — общая стоимость инвестиций в 2016 году.
lat — широта города страхователя. Гарантируется, что lat не равен NULL.
lon — долгота города страхователя. Гарантируется, что lon не равен NULL.
Напишите решение для отчета о сумме общей стоимости инвестиций в 2016 году tiv_2016 для всех страхователей, которые:
- имеют то же значение tiv_2015, что и один или несколько других держателей полисов
- не находятся в том же городе, что и любой другой страхователь (т. е. пары атрибутов (широта, долгота) должны быть уникальными).
Округлите tiv_2016 до двух десятичных знаков.
Решение разберем завтра
Решение вчерашней задачи
Самый простой способ — создать 2 критерия, которые позже будут использоваться в .isin():
Это делается для того, чтобы мы удалили все строки, в которых lat и lon не уникальны (keep = False гарантирует, что мы не оставим ни одного дублированного экземпляра, как это обычно происходит) - оставьте только столбец pid:
Insurance.drop_duulates(subset = ['lat','lon'], Keep = False).pid
Та же логика, но на этот раз нам нужно дублировать:
not_uniq_tiv_2015 = Insurance.loc[insurance.duulated(subset = 'tiv_2015', Keep=False)].pid
После этого просто возвращаем сумму тех tiv_2016, которые остались после фильтрации по двум созданным ранее критериям.
Самый простой способ — создать 2 критерия, которые позже будут использоваться в .isin():
Это делается для того, чтобы мы удалили все строки, в которых lat и lon не уникальны (keep = False гарантирует, что мы не оставим ни одного дублированного экземпляра, как это обычно происходит) - оставьте только столбец pid:
Insurance.drop_duulates(subset = ['lat','lon'], Keep = False).pid
Та же логика, но на этот раз нам нужно дублировать:
not_uniq_tiv_2015 = Insurance.loc[insurance.duulated(subset = 'tiv_2015', Keep=False)].pid
После этого просто возвращаем сумму тех tiv_2016, которые остались после фильтрации по двум созданным ранее критериям.
Table: Users
+----------------+---------+
| Column Name | Type |
+----------------+---------+
| user_id | int |
| join_date | date |
| favorite_brand | varchar |
+----------------+---------+
user_id — это первичный ключ (столбец с уникальными значениями) таблицы.
В этой таблице содержится информация о пользователях веб-сайта интернет-магазинов, где пользователи могут продавать и покупать товары.
Table: Orders
+---------------+---------+
| Column Name | Type |
+---------------+---------+
| order_id | int |
| order_date | date |
| item_id | int |
| buyer_id | int |
| seller_id | int |
+---------------+---------+
order_id — это первичный ключ (столбец с уникальными значениями) таблицы.
item_id — это внешний ключ (ссылочный столбец) таблицы Items.
buyer_id и seller_id — внешние ключи таблицы Users.
Table: Items
+---------------+---------+
| Column Name | Type |
+---------------+---------+
| item_id | int |
| item_brand | varchar |
+---------------+---------+
item_id — это первичный ключ (столбец с уникальными значениями) этой таблицы.
Напишите решение в котором нужно найти для каждого пользователя: дату присоединения и количество заказов, которые он сделал в качестве покупателя в 2019 году.
Решение разбираем завтра
+----------------+---------+
| Column Name | Type |
+----------------+---------+
| user_id | int |
| join_date | date |
| favorite_brand | varchar |
+----------------+---------+
user_id — это первичный ключ (столбец с уникальными значениями) таблицы.
В этой таблице содержится информация о пользователях веб-сайта интернет-магазинов, где пользователи могут продавать и покупать товары.
Table: Orders
+---------------+---------+
| Column Name | Type |
+---------------+---------+
| order_id | int |
| order_date | date |
| item_id | int |
| buyer_id | int |
| seller_id | int |
+---------------+---------+
order_id — это первичный ключ (столбец с уникальными значениями) таблицы.
item_id — это внешний ключ (ссылочный столбец) таблицы Items.
buyer_id и seller_id — внешние ключи таблицы Users.
Table: Items
+---------------+---------+
| Column Name | Type |
+---------------+---------+
| item_id | int |
| item_brand | varchar |
+---------------+---------+
item_id — это первичный ключ (столбец с уникальными значениями) этой таблицы.
Напишите решение в котором нужно найти для каждого пользователя: дату присоединения и количество заказов, которые он сделал в качестве покупателя в 2019 году.
Решение разбираем завтра
Какая из следующих архитектур нейронных сетей часто используется для решения задачи сегментации изображений, где каждый пиксель изображения относится к определенному классу или объекту?
Anonymous Quiz
22%
VGG16
35%
U-Net
16%
LSTM
27%
ResNet
Какая архитектура нейронной сети наиболее подходит для задачи семантической сегментации, где каждый пиксель изображения помечается не только классом объекта, но и его точной границей?
Anonymous Quiz
49%
VGG16 (Visual Geometry Group 16)
11%
LSTM (Long Short-Term Memory)
27%
FCN (Fully Convolutional Network)
14%
GAN (Generative Adversarial Network)
Какая архитектура нейронной сети обычно используется для задачи распознавания речи, где аудио сигналы преобразуются в текстовую форму?
Anonymous Quiz
17%
CNN
20%
GRU
47%
LSTM
15%
GAN
В какой сфере машинного обучения и искусственного интеллекта преимущественно используется архитектура Stable Diffusion?
Anonymous Quiz
10%
Обработка естественного языка
75%
Генерация изображений
9%
Рекомендательные системы
6%
Автономные беспилотные автомобили
Что означает параметр alpha в архитектуре Stable Diffusion?
Anonymous Quiz
19%
Скорость обучения модели
30%
Коэффициент регуляризации
33%
Уровень шума в генерируемых данных
18%
Степень регуляции стабильности процесса генерации
В чем заключается ключевое отличие между GRU (Gated Recurrent Unit) и LSTM (Long Short-Term Memory)?
Anonymous Quiz
22%
GRU не имеет скрытого состояния и использует только входные данные.
22%
LSTM имеет больше параметров, чем GRU, что делает ее более мощной.
49%
GRU имеет меньше внутренних блоков и обладает меньшей сложностью, чем LSTM.
7%
GRU и LSTM идентичны и не имеют ключевых отличий.
В чем заключается принцип работы слоя пулинга (pooling layer) в свёрточной нейронной сети (CNN) и какие цели он обычно выполняет в обработке изображений?
Anonymous Quiz
35%
Слой пулинга выполняет операцию свёртки над изображением, усиливая выделение признаков.
8%
Слой пулинга увеличивает размер изображения, повышая его разрешение.
47%
Слой пулинга уменьшает размер пространственных измерений изображения.
10%
Слой пулинга добавляет аугментации к изображению, улучшая его качество.
Будущим специалистам по DS или аналитикам данных важно подружиться с математикой🤜 🤛
Математика умножит ваши шансы на хороший оффер. И обычно именно на этих позициях ценится классическое образование в хорошем ВУЗе.
Но а что делать тем, кто не знал в 18 лет, что свяжет свою жизнь с DS?
Для этого есть полугодовой курс от преподавателей МГУ! Он объемный и довольно сложный, так как соответсвует университестким стандартам.
Подробности – https://proglib.academy/mathspro?utm_source=tg_ds
Там все по канонам классического образования:
1. Лекции по 1,5 часа.
2. Много практики, подробная обратная связь от преподателей.
3. Общий чатик со студентами, где можно получить поддержку от сокурсников.
Посмотрите примеры занятий
Математика умножит ваши шансы на хороший оффер. И обычно именно на этих позициях ценится классическое образование в хорошем ВУЗе.
Но а что делать тем, кто не знал в 18 лет, что свяжет свою жизнь с DS?
Для этого есть полугодовой курс от преподавателей МГУ! Он объемный и довольно сложный, так как соответсвует университестким стандартам.
Подробности – https://proglib.academy/mathspro?utm_source=tg_ds
Там все по канонам классического образования:
1. Лекции по 1,5 часа.
2. Много практики, подробная обратная связь от преподателей.
3. Общий чатик со студентами, где можно получить поддержку от сокурсников.
Посмотрите примеры занятий
Дано 32-битное целое число x со знаком, верните x с обратными цифрами. Если изменение x приводит к выходу значения за пределы диапазона 32-битных целых чисел со знаком [-231, 231 - 1], верните 0.
Предположим, что среда не позволяет хранить 64-битные целые числа (со знаком или без знака).
Завтра разбираем оптимальное решение
Предположим, что среда не позволяет хранить 64-битные целые числа (со знаком или без знака).
Завтра разбираем оптимальное решение