Библиотека задач по Data Science | тесты, код, задания
3.86K subscribers
644 photos
5 videos
355 links
Задачи и тесты по Data Science для тренировки и обучения.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/fa77bf4e

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://yangx.top/proglibrary/9197
加入频道
✍️ Воскресный разбор задач

1️⃣ Поговорим о Центральной предельной теореме (ЦПТ).

Можно рассматривать её вместе с Законом больших чисел (ЗБЧ). ЗБЧ гласит, что если некий эксперимент, результатом которого является число (случайная величина с матожиданием μ), провести много раз и усреднить результаты, то этот усреднённый результат, скорее всего, будет близок к μ. Это можно интерпретировать относительно среднего выборки следующим образом: чем больше размер выборки, тем ближе её среднее к среднему генеральной совокупности.

ЦПТ утверждает, что распределение суммы таких независимых случайных величин приближается к нормальному, если количество испытаний или число респондентов достаточно велико. Это можно интерпретировать относительно среднего выборки следующим образом: когда размер выборки увеличивается, распределение средних этих выборок, вне зависимости от исходного распределения данных в генеральной совокупности, стремится к нормальному распределению. То есть одно из ключевых отличий ЦПТ от ЗБЧ заключается в том, что ЦПТ описывает форму распределения средних значений.

2️⃣ Этот код создаёт массив из чисел от 0 до 9 (np.arange(10)). Также он изменяет форму этого массива на двумерный с помощью метода reshape(2, -1), где 2 указывает на количество строк, а -1 позволяет NumPy автоматически вычислить необходимое количество столбцов (в данном случае это 5 столбцов). Затем код выводит на печать arr[0, -1]. Здесь 0 указывает на первую строку массива, а -1 указывает на последний элемент в этой строке. Таким образом, из первой строки ([0, 1, 2, 3, 4]) будет извлечён последний элемент, который равен 4.

#разбор_задач
Какая метрика не подходит для оценки эффективности логистической регрессии?
Anonymous Quiz
12%
ROC-кривая
66%
Среднеквадратичная ошибка (MSE)
11%
Precision и Recall
11%
F1-мера
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
✏️ Разбор задачи с экзамена ШАД

Условие: У вас есть набор выражений 1️⃣. Найдите значение параметра a, для которого множество (k, l, m, n) будет линейно зависимым.

Решение: Требование задачи равносильно вырожденности матрицы коэффициентов. То есть нам нужно составить матрицу из коэффициентов, сделав из них строки и столбцы.

Вырожденная матрица — это квадратная матрица, определитель которой равен нулю. Определитель матрицы равен нулю тогда, когда строки (или столбцы) этой матрицы линейно зависимы, что соответствует исходному условию.

Совершая над матрицей элементарные преобразования строк и столбцов, получим 2️⃣.

Последняя матрица вырожденна 3️⃣. Из этого и получим ответ.

#задачи_шад
Какой тип объединения в SQL возвращает только строки, которые имеют совпадающие значения в обеих таблицах?
Anonymous Quiz
4%
LEFT JOIN
82%
INNER JOIN
5%
OUTER JOIN
10%
CROSS JOIN
👍 Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла новая статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

▫️NVIDIA продемонстрировала впечатляющие достижения в робототехнике на конференции GDC 2024. Посмотрите на гуманоидных роботов здесь.
▫️Компания DeepMind совместно с клубом Liverpool представила TacticAI — систему, которая может давать тактические советы футбольным тренерам.
▫️Stability AI выпустила модель Stable Video 3D, способную превращать изображения в 3D-видео.

🛠 Инструменты

▫️Arcads — генерирует маркетинговые видео с ИИ-актерами.
▫️Instanice — преобразует фото в любой нужный стиль, сохраняя внешность.
▫️PNGMaker — генерирует любые изображения на прозрачном фоне.

⚙️ Сделай сам

▫️Devika — опенсорсная альтернатива нашумевшему автономному агенту Devin от Cognition AI. Это ИИ-помощник, способный создавать сложные программные проекты с минимальным участием разработчика.
▫️GPT Prompt Engineer — агент для создания эффективных промптов. Поддерживает все модели OpenAI и Claude 3.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Что выведет код с картинки выше?
Anonymous Quiz
20%
Ошибка
27%
14.0
22%
15.0
19%
14
12%
15
⚡️Proglib запускает каналы про нейросети

По каждому направлению отдельно! А именно:

Библиотека нейрозвука — здесь все, связанное с транскрибацией, синтезом речи, ИИ-музыкой
Библиотека нейротекста — классические ИИ-помощники вроде ChatGPT, Gemini, Bing
Библиотека нейровидео — здесь пишем про нашумевшую Sora AI, а также про Runway ML, дипфейки и другие видеотехнологии
Библиотека нейрокартинок — генерируем изображения и рассказываем про Midjourney, DALL-E, Stable Diffusion
⭐️Библиотека робототехники и беспилотников — наконец, тут мы рассказываем не столько про ИИ, сколько про роботов, беспилотные технологии и интернет вещей

И все это — максимально подробно: с пошаговыми инструкциями, промтами, инструментами и лайфхаками.

Подписывайтесь!
35% на самый хардкорный курс по вышмату!

🌟 «Математика для Data Science» 🌟

19 490 рублей 29 990 рублей до 1 апреля

Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.

Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.

У вас не будет шансов не усвоить какие-то темы курса👌

🔥 Переходите и активируйте вводные занятия курсаhttps://proglib.io/w/4b21349b
Алиса и Боб каждый выбирают целые числа случайным образом и равномерно в диапазоне от 1 до 10^1000000. Алиса выигрывает, если у их двух чисел есть общий простой делитель. Боб — если общих простых делителей нет. Кто имеет больше шансов выиграть?
Anonymous Quiz
47%
Алиса
28%
Боб
16%
Шансы примерно равны
9%
Не знаю
✏️ Разбор задачи с экзамена ШАД

Условие: Лёша и Марина договорились встретиться между 8:00 и 9:00 и вместе пойти на экзамен в ШАД. Каждый из них приходит на место встречи в случайный момент времени, ждёт 15 минут и уходит (никому не хочется опоздать на экзамен). Являются ли независимыми события «Лёша и Марина не встретились» и «хотя бы один из них пришёл после 8:45»? Время считайте непрерывным.

Решение: Два события называются независимыми, если вероятность их пересечения равна произведению их вероятностей 1️⃣

Чтобы определить независимость событий A и B, нужно посчитать две вероятности в правой части. Сделать это проще всего геометрически. Представим каждое из элементарных событий (пару «время, когда пришёл Лёша» и «время, когда пришла Марина») точками квадрата со стороной 1 час. Построим графическое представление каждого из событий.

Расчёт события А («Лёша и Марина не встретились»)

Какое условие накладывает событие А на координаты М и Л (они же x, y)? Оно показывает, что ребята не встретились, то есть что между приходом Лёши и Марины прошло больше четверти часа. Запишем 2️⃣. Изобразим событие А в пространстве элементарных событий 3️⃣

Расчёт события B («хотя бы один из друзей пришёл после 8:45»)

Это можно записать следующим образом 4️⃣ и изобразить так 5️⃣
Чтобы найти вероятность А, нужно разделить площадь красного фрагмента на площадь всего пространства элементарных событий. Эта площадь в задаче равна единице. Красный фрагмент состоит из двух треугольников со стороной три четверти. Считаем и получаем 9/16. Посчитать площадь B ещё проще. Оно занимает семь квадратов в общем пространстве элементарных событий, состоящем из 16 квадратов. Получаем 7/16

Расчёт пересечения

На схеме 6️⃣ видно, что пересечение занимает 5 квадратов. Получаем 5/16. В итоге подставляем все рассчитанные значения в формулу 1️⃣. P(A) * P (B) = 9/16 * 7/16. Это произведение не равно 5/16. Следовательно, события А и B не независимы.

#задачи_шад
✏️ Разбор задачи с экзамена ШАД

Условие: Известно, что 1️⃣. Нужно найти 2️⃣

Решение: Для начала попробуем что-нибудь понять про f(x) и про её поведение в окрестности нуля. Умножим и разделим на синус, чтобы получить известное. Запишем 3️⃣
При x, стремящемся к 0, первый множитель стремится к двойке, а второй стремится к нулю. Значит, их произведение тоже стремится к нулю 4️⃣
Посмотрим на то частное предела, которое надо найти 5️⃣
Видно, что в знаменателе стоит нечто стремящееся к нулю. В числителе — нечто стремящееся к логарифму единицы, то есть тоже к нулю. Видна неопределённость 0/0.

Напишем предел частного, которое надо найти. Постараемся в этом частном выделить f(x)/sin x, про которое мы уже что-то знаем 6️⃣
Нам известно, что предел второго множителя — ½. А предел первого множителя можно посчитать с помощью правила Лопиталя 7️⃣
Мы видим, что 8️⃣
Следовательно, искомый предел равен ³/₂.

#задачи_шад
🤖✍️ Как работают языковые модели (LLM): простое объяснение через аналогию с кулинарией

Языковые модели (LLM) — это сложные системы искусственного интеллекта, способные генерировать человекоподобные тексты. Но как именно они это делают? В этой статье мы объясним принципы работы LLM, используя простую и понятную аналогию с приготовлением еды.

🔗 Читать статью
🔗 Зеркало
Словари в Python — это упорядоченный тип данных?
Anonymous Quiz
36%
Да
64%
Нет