Библиотека задач по Data Science | тесты, код, задания

✍️ Очередной воскресный разбор задач

1️⃣ Log Loss — это одна из функций потерь, используемая в задаче классификации. Основывается на вероятностной модели. Чтобы вычислить вероятность получения исходной выборки согласно предсказаниям модели, перемножаются вероятности каждого отдельного y при условии набора признаков x. Получившуюся таким образом функцию правдоподобия нужно максимизировать. Однако максимизировать произведение достаточно сложно, поэтому берётся логарифм. Кроме того, выражение преобразуется для того, чтобы от задачи максимизации перейти к задаче минимизации.

Причина, по которой Log Loss сильнее штрафует за уверенные и неверные прогнозы, заключается в свойствах логарифмической функции. Когда модель делает уверенное предсказание (то есть, pi близко к 1 для истинного класса 1 или pi близко к 0 для истинного класса 0), и это предсказание верно, логарифмический компонент приближается к 0, что приводит к меньшему значению потерь. Однако, если модель делает уверенное, но ошибочное предсказание (pi близко к 1, когда истинный класс 0, или pi близко к 0, когда истинный класс 1), логарифмический компонент стремится к бесконечности.

2️⃣ Рассмотрим, как работают операторы and и or в Python.

▪️and возвращает первый операнд, если он ложен, иначе возвращает второй операнд.
▪️or возвращает первый операнд, если он истинен, иначе возвращает второй операнд.

Таким образом, в этой задаче в переменную a (5 and 10) запишется 10. В переменную b (5 or 10) запишется 5. Верным ответом будет 30.

3️⃣ В данном объединении используется метод outer. Он работает как FULL JOIN в SQL, то есть полное внешнее объединение. Включаются все строки из обеих таблиц. Если совпадений по ключу нет, в результирующем DataFrame для отсутствующих значений вставляется NaN.

#разбор_задач

❤4

1.15K views13:00

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

912 views06:04

Библиотека задач по Data Science | тесты, код, задания

Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👀

Итоги недели в мире ИИ и обзоры новых сервисов

У нас вышла интересная статья на 📰 по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая подборка, а целиком читайте здесь 👈

💬

Новости

▫️ Исследователи Стэнфордского университета обнаружили, что чат-боты склонны делать выбор в пользу насилия и ядерных ударов в военных играх.
▫️Разработчики приложения для знакомств Bumble протестировали новую AI-функцию Deception Detector, которая автоматически заблокировала 95% мошеннических аккаунтов.
▫️Google создала MobileDiffusion — мини-модель для супербыстрой генерации изображений на смартфонах.

🛠 Инструменты

▫️UserSketch — создаёт чат-бота на основе единой базы знаний с данными, собранными из любых документов, почты, мессенджеров, приложений для управления проектами и организации бизнес-процессов.
▫️Ytube AI — превращает YouTube-видео в SEO-оптимизированные статьи.
▫️ThreadScribe.ai — превращает сообщения из Slack в структурированную базу знаний, которой можно задавать любые вопросы и получать инсайты.
▫️Fooocus — бесплатная опенсорсная альтернатива Midjourney. Устанавливается локально.

⚙️

Сделай сам

Google выпустила инструмент localllm для запуска LLM локально или в облаке, на CPU вместо GPU. Подробный туториал по установке и настройке localllm — в блоге разработчиков.

🎓 Исследования

Исследователи из Технологического института Джорджии представили PokéLLMon. Возможности этого ИИ-агента сопоставимы с человеческими — он уже выиграл 56% боев против людей. Авторы также нашли способ избавиться от галлюцинаций и решили проблему панического переключения, когда при столкновении с сильным противником агент начинал хаотично переключаться между покемонами.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

855 views12:00

Библиотека задач по Data Science | тесты, код, задания

Что происходит с коэффициентами в ридж-регрессии (Ridge Regression), когда параметр регуляризации стремится к нулю?

Anonymous Quiz

17%

Они стремятся к нулю

19%

Они становятся бесконечно большими

55%

Они приближаются к оценкам обычного метода наименьших квадратов

Они становятся неопределёнными

❤2

520 voters4K views12:00

Библиотека задач по Data Science | тесты, код, задания

1.21K views12:00

Библиотека задач по Data Science | тесты, код, задания

Каким будет вывод этого кода?

Anonymous Quiz

😁9

365 voters1.17K views12:00

Библиотека задач по Data Science | тесты, код, задания

Как строится финальная модель при использовании кросс-валидации?

Anonymous Quiz

Модель обучается только на данных из фолда, показавшего лучшие результаты на валидации

18%

Финальная модель — это ансамбль всех моделей, построенных во время каждого этапа кросс-валидации

34%

Кросс-валидация не предполагает построение финальной модели; она только оценивает производительность

42%

Модель обучается на всём наборе данных после выбора гиперпараметров по результатам кросс-валидации

👍5🔥1

651 voters4.04K views10:25

Библиотека задач по Data Science | тесты, код, задания

1.17K views12:00

Библиотека задач по Data Science | тесты, код, задания

Что выведет код сверху?

Anonymous Quiz

Ошибка из-за несовпадения размерностей

None

228 voters1.1K views12:00

Библиотека задач по Data Science | тесты, код, задания

Какой приём обычно используется, когда моделируются нелинейные зависимости в линейной регрессии?

Anonymous Quiz

74%

Применение логарифмических или экспоненциальных преобразований к переменным

14%

Трансформация модели линейной регрессии в модель логистической регрессии

Удаление выбросов, чтобы получить зависимость линейного характера

Использование только категориальных независимых переменных

301 voters1.12K views12:00

Библиотека задач по Data Science | тесты, код, задания

✍️ Разбираем задачи прошедшей недели

1️⃣ В строковых литералах Python обратный слеш \ используется для экранирования специальных символов, таких как \n для новой строки или \t для табуляции. В данном случае двойной обратный слеш \\ интерпретируется как один обратный слеш, а символ t после него остаётся просто буквой. Вывод будет — '2\t4'.
2️⃣ Кросс-валидация, по сути, эмулирует наличие тестовой выборки, которая не участвует в обучении, но для которой известны правильные ответы. При этом можно систематически изменять гиперпараметры модели, чтобы найти такую комбинацию, которая даёт лучшую производительность на разных подмножествах данных. Это обычно достигается с помощью таких методов, как Grid Search или Random Search.
3️⃣ Функция np.linalg.solve(A, b) решает систему уравнений, которая выглядит так:
3x1+x2=9
x1+2x2=8
Её решением будет [2. 3.]

#разбор_задач

👍6

1.13K views12:00

Библиотека задач по Data Science | тесты, код, задания

1.07K views12:01

Библиотека задач по Data Science | тесты, код, задания

Что выведет этот код?

Anonymous Quiz

❤1

274 voters1.01K views12:01

Библиотека задач по Data Science | тесты, код, задания

🧑‍💻 Статьи для IT: как объяснять и распространять значимые идеи

Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.

Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.

Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.

👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.

1.03K views20:01

Библиотека задач по Data Science | тесты, код, задания

В тестировании гипотез что представляет собой p-значение (p-value)?

Anonymous Quiz

25%

Вероятность того, что нулевая гипотеза истинна

17%

Вероятность того, что альтернативная гипотеза истинна

47%

Вероятность наблюдения таких данных при условии, что нулевая гипотеза истинна

11%

Вероятность совершения ошибки второго рода