Forwarded from Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
У нас вышла интересная статья на
Ниже — небольшая подборка, а целиком читайте здесь 👈
▫️ Исследователи Стэнфордского университета обнаружили, что чат-боты склонны делать выбор в пользу насилия и ядерных ударов в военных играх.
▫️Разработчики приложения для знакомств Bumble протестировали новую AI-функцию Deception Detector, которая автоматически заблокировала 95% мошеннических аккаунтов.
▫️Google создала MobileDiffusion — мини-модель для супербыстрой генерации изображений на смартфонах.
🛠 Инструменты
▫️UserSketch — создаёт чат-бота на основе единой базы знаний с данными, собранными из любых документов, почты, мессенджеров, приложений для управления проектами и организации бизнес-процессов.
▫️Ytube AI — превращает YouTube-видео в SEO-оптимизированные статьи.
▫️ThreadScribe.ai — превращает сообщения из Slack в структурированную базу знаний, которой можно задавать любые вопросы и получать инсайты.
▫️Fooocus — бесплатная опенсорсная альтернатива Midjourney. Устанавливается локально.
Google выпустила инструмент localllm для запуска LLM локально или в облаке, на CPU вместо GPU. Подробный туториал по установке и настройке localllm — в блоге разработчиков.
🎓 Исследования
Исследователи из Технологического института Джорджии представили PokéLLMon. Возможности этого ИИ-агента сопоставимы с человеческими — он уже выиграл 56% боев против людей. Авторы также нашли способ избавиться от галлюцинаций и решили проблему панического переключения, когда при столкновении с сильным противником агент начинал хаотично переключаться между покемонами.
Please open Telegram to view this post
VIEW IN TELEGRAM
Что происходит с коэффициентами в ридж-регрессии (Ridge Regression), когда параметр регуляризации стремится к нулю?
Anonymous Quiz
17%
Они стремятся к нулю
19%
Они становятся бесконечно большими
55%
Они приближаются к оценкам обычного метода наименьших квадратов
8%
Они становятся неопределёнными
Как строится финальная модель при использовании кросс-валидации?
Anonymous Quiz
6%
Модель обучается только на данных из фолда, показавшего лучшие результаты на валидации
18%
Финальная модель — это ансамбль всех моделей, построенных во время каждого этапа кросс-валидации
34%
Кросс-валидация не предполагает построение финальной модели; она только оценивает производительность
42%
Модель обучается на всём наборе данных после выбора гиперпараметров по результатам кросс-валидации
Что выведет код сверху?
Anonymous Quiz
35%
[2. 3.]
18%
[3. 2.]
45%
Ошибка из-за несовпадения размерностей
3%
None
Какой приём обычно используется, когда моделируются нелинейные зависимости в линейной регрессии?
Anonymous Quiz
74%
Применение логарифмических или экспоненциальных преобразований к переменным
14%
Трансформация модели линейной регрессии в модель логистической регрессии
8%
Удаление выбросов, чтобы получить зависимость линейного характера
4%
Использование только категориальных независимых переменных
✍️ Разбираем задачи прошедшей недели
1️⃣ В строковых литералах Python обратный слеш \ используется для экранирования специальных символов, таких как \n для новой строки или \t для табуляции. В данном случае двойной обратный слеш \\ интерпретируется как один обратный слеш, а символ t после него остаётся просто буквой. Вывод будет — '2\t4'.
2️⃣ Кросс-валидация, по сути, эмулирует наличие тестовой выборки, которая не участвует в обучении, но для которой известны правильные ответы. При этом можно систематически изменять гиперпараметры модели, чтобы найти такую комбинацию, которая даёт лучшую производительность на разных подмножествах данных. Это обычно достигается с помощью таких методов, как Grid Search или Random Search.
3️⃣ Функция np.linalg.solve(A, b) решает систему уравнений, которая выглядит так:
3x1+x2=9
x1+2x2=8
Её решением будет [2. 3.]
#разбор_задач
1️⃣ В строковых литералах Python обратный слеш \ используется для экранирования специальных символов, таких как \n для новой строки или \t для табуляции. В данном случае двойной обратный слеш \\ интерпретируется как один обратный слеш, а символ t после него остаётся просто буквой. Вывод будет — '2\t4'.
2️⃣ Кросс-валидация, по сути, эмулирует наличие тестовой выборки, которая не участвует в обучении, но для которой известны правильные ответы. При этом можно систематически изменять гиперпараметры модели, чтобы найти такую комбинацию, которая даёт лучшую производительность на разных подмножествах данных. Это обычно достигается с помощью таких методов, как Grid Search или Random Search.
3️⃣ Функция np.linalg.solve(A, b) решает систему уравнений, которая выглядит так:
3x1+x2=9
x1+2x2=8
Её решением будет [2. 3.]
#разбор_задач
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
В тестировании гипотез что представляет собой p-значение (p-value)?
Anonymous Quiz
25%
Вероятность того, что нулевая гипотеза истинна
17%
Вероятность того, что альтернативная гипотеза истинна
47%
Вероятность наблюдения таких данных при условии, что нулевая гипотеза истинна
11%
Вероятность совершения ошибки второго рода
Какая функция потерь оптимизируется при обучении логистической регрессии?
Anonymous Quiz
7%
Средняя абсолютная ошибка (Mean absolute error, MAE)
20%
Средняя квадратичная ошибка (Mean squared error)
60%
Перекрёстная энтропия (Log Loss)
14%
Корень из средней квадратичной ошибки (Root Mean Squared Error, RMSE)
По умолчанию метод dropna() в Pandas возвращает новый DataFrame и не изменяет оригинальный
Anonymous Quiz
61%
Правда
39%
Ложь
Как теорема Цыбенко связана с многослойным перцептроном (MLP)?
Anonymous Quiz
61%
Утверждает, что MLP может приблизить любую функцию, если есть достаточно нейронов в скрытом слое
18%
Гарантирует сходимость любого алгоритма обучения для MLP
21%
Устанавливает ограничение на количество скрытых слоёв, необходимых для конкретной задачи
✍️ Воскресный разбор задач
Сегодня рассмотрим одну задачу, которая поднимает любопытный вопрос.
🔹 При выполнении кода np.array(0) / np.array(0) Python выдаст предупреждение о делении на ноль и вернёт nan (Not a Number). Это стандартное поведение для таких операций.
🔹 При выполнении операции целочисленного деления np.array(0) // np.array(0) Python также сгенерирует предупреждение, но выведет ноль. Это не совсем нормальное поведение. И разработчики NumPy об этом знают.
В репозитории проекта существует issue с описанием проблемы. Автор поясняет, что целью было реализовать поведение при делении на ноль у целых чисел, у которых нет nan. Было решено просто взять рандомное значение (0) и возвращать его вместо nan. Однако, по мнению автора, это может порождать неожиданные проблемы, так как отловить ошибку становится затруднительно. С ним, впрочем, другие члены команды не согласны. Issue открыт до сих пор. Поэтому единственный выход — помнить о таком исключении.
#разбор_задач
Сегодня рассмотрим одну задачу, которая поднимает любопытный вопрос.
🔹 При выполнении кода np.array(0) / np.array(0) Python выдаст предупреждение о делении на ноль и вернёт nan (Not a Number). Это стандартное поведение для таких операций.
🔹 При выполнении операции целочисленного деления np.array(0) // np.array(0) Python также сгенерирует предупреждение, но выведет ноль. Это не совсем нормальное поведение. И разработчики NumPy об этом знают.
В репозитории проекта существует issue с описанием проблемы. Автор поясняет, что целью было реализовать поведение при делении на ноль у целых чисел, у которых нет nan. Было решено просто взять рандомное значение (0) и возвращать его вместо nan. Однако, по мнению автора, это может порождать неожиданные проблемы, так как отловить ошибку становится затруднительно. С ним, впрочем, другие члены команды не согласны. Issue открыт до сих пор. Поэтому единственный выход — помнить о таком исключении.
#разбор_задач
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈
В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги
👉Подписаться👈