Библиотека задач по Data Science | тесты, код, задания
3.85K subscribers
642 photos
5 videos
353 links
Задачи и тесты по Data Science для тренировки и обучения.

По рекламе: @proglib_adv

Учиться у нас: https://proglib.io/w/fa77bf4e

Для обратной связи: @proglibrary_feeedback_bot

Наши каналы: https://yangx.top/proglibrary/9197
加入频道
Хардкорный курс по математике для тех, кто правда любит математику!

Начать с вводных занятий можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/7a0a51af

Что вас ждет:

– Вводный урок от CPO курса

– Лекции с преподавателями ВМК МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск

– Практические задания для закрепления материала и ссылки на дополнительные материалы.

⚡️ Переходите и начинайте учиться уже сегодня – https://proglib.io/w/7a0a51af
Please open Telegram to view this post
VIEW IN TELEGRAM
💻🚀🏰 Как мы создали ИИ-стартап на хакатоне выходного дня в Германии

Инженер ПО рассказал нам о своих выходных на хакатоне в Кельне, где с командой пытался создать AI-стартап всего за два дня. Участники прошли путь от подачи идей в пятницу вечером до демонстрации работающего приложения к воскресенью.

В качестве бонуса автор привёл список основных пунктов, которые необходимо выполнить для создания стартапа.

🔗 Читать статью
🔗 Зеркало
С каким распределением мы будем работать, если хотим оценить эффективность лендинга и узнать, насколько большая доля людей, просмотревших его, оставляют заявку на услугу?
Anonymous Quiz
11%
непрерывное ненормальное
29%
непрерывное нормальное
60%
биномиальное
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
📈 Стать аналитиком Big Data: пошаговое руководство 2024

Big Data — это наборы данных очень больших размеров, которые также характеризуются многообразием и высокой скоростью обновления. Аналитики больших данных находят и исследуют в них закономерности с помощью специальных программных средств.

В нашей обновлённой статье рассказываем, какие знания, онлайн-курсы, подкасты и книги помогут начать карьеру в сфере Big Data без специального образования🧑‍🎓

🔗 Читать статью
🔗 Зеркало
По тренировочной выборке из 70 объектов был построен классификатор. Его качество проверили на тестовой выборке, состоящей из 30 элементов. Чему равна сумма чисел TP+FP+FN+TN из матрицы ошибок?
Anonymous Quiz
24%
100
12%
70
56%
30
9%
130
⚡️Proglib запускает канал про ИИ для генерации звука

Там мы будем рассказывать про все существующие нейросети, которые генерируют музыку и голос — с пошаговыми инструкциями, инструментами и лайфхаками.

⭐️генерация голоса и музыки
⭐️замена и перевод речи
⭐️распознавание звуков

👉Подписывайтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
Выберите правильное объявление функции fun1(), чтобы код выше успешно выполнялся.
Anonymous Quiz
26%
def fun1(**kwargs)
40%
def fun1(*data)
24%
def fun1(args*)
9%
Такое невозможно
Что выведет код с картинки выше?
Anonymous Quiz
36%
TypeError
39%
(100, 100)
25%
(200)
Рассмотрите график выше. Какой метод трансформации данных будет наиболее эффективным для начала? Предположим, что цель – найти линейную зависимость между roomsPerPerson и ценой дома.
Anonymous Quiz
15%
Z-score
8%
Clipping
12%
Биннинг c квантильными границами
66%
Логарифмическое масштабирование
✍️ Воскресный разбор сложных задач недели

1️⃣ L2-регрессия добавляет штраф к функции потерь, пропорциональный квадрату нормы коэффициентов. А L1-регрессия добавляет штраф, пропорциональный норме коэффициентов без возведения в квадрат. Таким образом, первый метод регуляризации стремится уменьшить влияние менее значимых признаков, уменьшая их коэффициенты, но редко приводит к тому, что они становятся строго равными нулю. А вот во втором случае может произойти зануление.

Поэтому если мы понимаем, что нам важны все признаки и не хотим избавляться от каких-то из них, лучше использовать L2-регрессию.

2️⃣ Давайте рассмотрим все методы трансформации данных из вопроса:
▫️Z-score — хороший выбор, если выбросы в данных не экстремальные. Однако по графику видно, что аномалии довольно значительные.
▫️Биннинг с квантильными границами — мог бы подойти, если бы данные были асимметричны, но в данном случае асимметрия частично вызвана несколькими экстремальными выбросами. Кроме того, мы хотим, чтобы модель обучилась линейной зависимости. Поэтому следует оставить показатель roomsPerPerson числовым, а не преобразовывать его в категории.
▫️Логарифмическое масштабирование — подошло бы, если бы данные подчинялись степенному закону. Однако эти данные подчиняются нормальному распределению.
▫️Clipping — подойдёт для начала анализа, так как в наборе данных присутствуют экстремальные выбросы. Можно убрать их перед применением других методов нормализации.

#разбор_задач
🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.