Что, если модели ИИ способны взламывать заложенную в них мотивацию?
Мы вполне можем представить себе учителя, который не дает широких знаний по теме, сосредоточившись на подготовке учеников к конкретному экзамену/тесту. Или ученого, постоянно публикующего научные работы, чтобы продвинуться по карьерной лестнице в системе «Publish or perish».
Когда ИИ учится способу удовлетворить букву, но не обязательно дух своего обучения – это «игра по спецификации». Порой модели находят способы «обыграть» систему вознаграждений, не обязательно действуя так, как предполагали их разработчики.
В статье группы Anthropic Alignment Science «От подхалимства к хитрым уловкам: исследование фальсификации вознаграждения в языковых моделях» – о том, как «игры по спецификации» могут перерасти в более опасное поведение.
#LLM #нейросети
Мы вполне можем представить себе учителя, который не дает широких знаний по теме, сосредоточившись на подготовке учеников к конкретному экзамену/тесту. Или ученого, постоянно публикующего научные работы, чтобы продвинуться по карьерной лестнице в системе «Publish or perish».
Когда ИИ учится способу удовлетворить букву, но не обязательно дух своего обучения – это «игра по спецификации». Порой модели находят способы «обыграть» систему вознаграждений, не обязательно действуя так, как предполагали их разработчики.
В статье группы Anthropic Alignment Science «От подхалимства к хитрым уловкам: исследование фальсификации вознаграждения в языковых моделях» – о том, как «игры по спецификации» могут перерасти в более опасное поведение.
#LLM #нейросети
Anthropic
Sycophancy to subterfuge: Investigating reward tampering in language models
Empirical evidence that serious misalignment can emerge from seemingly benign reward misspecification.
Немного пятничного ИИ-скепсиса:
🤖 В Nature вышла статья, в которой продемонстрировано, что происходит, если обучать нейросети на текстах, сгенерированных тем же искусственным интеллектом. Из-за того, что каждая следующая версия может игнорировать определенные части обучающего набора данных, ошибки усиливаются, происходит «коллапс модели».
Исследователи использовали LLM для создания текстов в стиле Википедии, затем обучили на них новые модели. На девятой итерации получилось то, что называется «AI gibberish»: от статьи о проектировании английских церковных башен XIV века пришли к обсуждению популяции зайцев с разноцветными хвостами.
Здесь еще несколько интересных ссылок и замечаний.
🤖 «ChatGPT is bullshit» – не восклицание, в сердцах произнесенное после очередной попытки промтостроения, но название статьи в Springer. Здесь придется сперва разобраться в оттенках не заячьих хвостов, но слова bullshit – авторы настаивают на том, что искажения, выдаваемые нейросетями, ближе к «чуши» и «ерунде», чем «галлюцинациям».
#ии #нейросети #llm
Исследователи использовали LLM для создания текстов в стиле Википедии, затем обучили на них новые модели. На девятой итерации получилось то, что называется «AI gibberish»: от статьи о проектировании английских церковных башен XIV века пришли к обсуждению популяции зайцев с разноцветными хвостами.
Здесь еще несколько интересных ссылок и замечаний.
#ии #нейросети #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Nature
AI models collapse when trained on recursively generated data
Nature - Analysis shows that indiscriminately training generative artificial intelligence on real and generated content, usually done by scraping data from the Internet, can lead to a collapse in...
Как разработать LLM с нуля на обычном ноутбуке и использовать в качестве личного помощника
Как говорил известный физик Ричард Фейнман, «чего не могу воссоздать, того не понимаю».
В своей новой книге Себастьян Рашка, чьи бестселлеры «Python и машинное обучение» и «Машинное обучение с PyTorch и Scikit-Learn» уже знакомы как начинающим дата-сайентистам, так и опытным специалистам в Machine Learning & Deep Learning, предлагает читателю самостоятельно шаг за шагом создать большую языковую модель (GPT-like). От планирования и написания кода до обучения и тонкой настройки.
Каждый этап в «Создании большой языковой модели» («Build a Large Language Model (From Scratch)» объясняется понятным текстом, диаграммами и примерами.
С открытой частью ресурса можно ознакомиться в GitHub-репозитории.
#Gpt #llm #ai #чтопочитать #ресурсы
Как говорил известный физик Ричард Фейнман, «чего не могу воссоздать, того не понимаю».
В своей новой книге Себастьян Рашка, чьи бестселлеры «Python и машинное обучение» и «Машинное обучение с PyTorch и Scikit-Learn» уже знакомы как начинающим дата-сайентистам, так и опытным специалистам в Machine Learning & Deep Learning, предлагает читателю самостоятельно шаг за шагом создать большую языковую модель (GPT-like). От планирования и написания кода до обучения и тонкой настройки.
Каждый этап в «Создании большой языковой модели» («Build a Large Language Model (From Scratch)» объясняется понятным текстом, диаграммами и примерами.
С открытой частью ресурса можно ознакомиться в GitHub-репозитории.
#Gpt #llm #ai #чтопочитать #ресурсы
ИИ приближают «текстапокалипсис»?
Нейросети, собирая текстовые данные из сети, разбивают их на части и на основе этого учатся отвечать, как человек. Чем больше нейросети «потребляют» качественной информации (к примеру, научные статьи), тем выше их эффективность. Однако, как заявляют ученые и руководители компаний-разработчиков, запас общедоступных данных для обучения больших языковых моделей скоро будет исчерпан.
«Чтобы модели были умнее, требуются данные, созданные людьми, а не нейросетями. Вопрос в том, где найти такие данные».
Здесь можно вспомнить недавний материал в Nature о том, что происходит, если обучать нейросети на синтетических текстах, сгенерированных тем же искусственным интеллектом.
Профессор английского языка и цифровых исследований в Университете Мэриленда Мэтью Киршенбаум рассуждает о «текстапокалипсисе»: что, если нас погубят не межконтинентальные баллистические ракеты или изменение климата, не микроскопические патогены или метеорит размером с гору, а… текст? Цунами текста, превратившееся в самовоспроизводящийся поток контента.
И здесь есть о чем поразмышлять. Возможно, в мире изобилия оптимизированного по содержанию контента, который создают либо машины, либо гибрид человека и машины, талант людей, пишущих серьезные, глубокие и правдивые тексты, будет цениться выше?
#ии #нейросети #llm
Нейросети, собирая текстовые данные из сети, разбивают их на части и на основе этого учатся отвечать, как человек. Чем больше нейросети «потребляют» качественной информации (к примеру, научные статьи), тем выше их эффективность. Однако, как заявляют ученые и руководители компаний-разработчиков, запас общедоступных данных для обучения больших языковых моделей скоро будет исчерпан.
«Чтобы модели были умнее, требуются данные, созданные людьми, а не нейросетями. Вопрос в том, где найти такие данные».
Здесь можно вспомнить недавний материал в Nature о том, что происходит, если обучать нейросети на синтетических текстах, сгенерированных тем же искусственным интеллектом.
Профессор английского языка и цифровых исследований в Университете Мэриленда Мэтью Киршенбаум рассуждает о «текстапокалипсисе»: что, если нас погубят не межконтинентальные баллистические ракеты или изменение климата, не микроскопические патогены или метеорит размером с гору, а… текст? Цунами текста, превратившееся в самовоспроизводящийся поток контента.
И здесь есть о чем поразмышлять. Возможно, в мире изобилия оптимизированного по содержанию контента, который создают либо машины, либо гибрид человека и машины, талант людей, пишущих серьезные, глубокие и правдивые тексты, будет цениться выше?
#ии #нейросети #llm
The Atlantic
Prepare for the Textpocalypse
Our relationship to writing is about to change forever; it may not end well.
Info-Tech trends 2025: высокие ставки 🔜 экспоненциальное вознаграждение
Компания Info-Tech Research Group представила ежегодный отчет «Tech trends 2025» – о технологических тенденциях, возможностях и рисках. С конкретными примерами и результатами опросов.
Авторы выделили три ключевых вектора развития технологических трендов:
→ «экспоненциальный искусственный интеллект» (Exponential AI)
→ «доквантовые основы» (Pre-Quantum Foundations)
→ «цифровые люди» (Digital Humans).
Шесть трендов 2025 года:
1. Экспертные модели: создаем преимущество, внимательно изучая возможности ИИ
На что обратить внимание:
🔴 Разработка экспертных моделей: OpenAI, Meta, Cohere, Anthropic демонстрируют поразительную широту знаний, но разочаровывают при поиске специализированного контента. Организации, использующие ИИ, могут решить эту проблему разными путями: используя модель, разработанную отраслевой компанией, поставщика, сотрудничающего с коллегами по отрасли для обучения модели или проводя дополнительное предварительное обучение и доводку моделей, изолированных в инфраструктуре организации.
🔴 Расширение существующих процессов: попытки полностью автоматизировать задачи с помощью ИИ вряд ли будут обречены на успех. Но LLM превосходно справляются с распознаванием образов и быстрым анализом больших объемов информации, что может повысить скорость и качество работы.
🔴 Фокус на управлении данными: как гласит старая пословица, «мусор на входе – мусор на выходе». У организаций со здоровой гигиеной данных больше шансов сделать следующий шаг в обучении моделей.
🔴 Демократизация ИИ.
2. Суверенитет в области ИИ: сохраняем контроль
Обучая ИИ, необходимо помнить о конфиденциальности и безопасности. Говоря о потенциальных возможностях нейросетей, нельзя не упомянуть и об угрозах, с которыми уже сейчас сталкиваются творческие индустрии. Музыкальные генераторы на базе искусственного интеллекта могут создавать новую музыку в любом стиле и жанре. Ответы на поисковые запросы, сгенерированные ИИ, избавляют пользователей от необходимости заходить на новостные, образовательные и развлекательные порталы.
3. Квантовое преимущество: доступ к квантовым экспериментам в облаке
34% «трансформаторов» планируют инвестировать в квантовые вычисления ближе к концу 2025 года. Перспективы велики: у организаций, наращивающих мышцы прямо сейчас, есть все шансы вырваться вперед в будущем, но все же это экспериментальное поле. Инвестициям в квантовые вычисления потребуются годы, чтобы окупиться.
Ведущие отрасли, инвестирующие в квантовые вычисления к концу 2025 года:
- СМИ, информация, телекоммуникации и технологии: 33%
- Правительство/государственный сектор: 27%
- Финансовые услуги: 20%
- Образование: 13%
4. Постквантовая криптография: переходим на квантовоустойчивое шифрование, пока не стало слишком поздно
Идет обратный отсчет до Q-дня – момента, когда квантовые компьютеры всего за сутки смогут взломать шифрование с открытым ключом. Однажды это случится, и мы не знаем точно, сколько времени у нас есть. Более половины экспертов в области квантовых вычислений, опрошенных Global Risk Institute, оценивают в 50% вероятность того, что это случится в ближайшие 15 лет.
К 2026 году не менее трети организаций будут инвестировать в постквантовую криптографию.
#тренды #ии #нейросети #llm
Компания Info-Tech Research Group представила ежегодный отчет «Tech trends 2025» – о технологических тенденциях, возможностях и рисках. С конкретными примерами и результатами опросов.
Авторы выделили три ключевых вектора развития технологических трендов:
→ «экспоненциальный искусственный интеллект» (Exponential AI)
→ «доквантовые основы» (Pre-Quantum Foundations)
→ «цифровые люди» (Digital Humans).
Шесть трендов 2025 года:
1. Экспертные модели: создаем преимущество, внимательно изучая возможности ИИ
На что обратить внимание:
2. Суверенитет в области ИИ: сохраняем контроль
Обучая ИИ, необходимо помнить о конфиденциальности и безопасности. Говоря о потенциальных возможностях нейросетей, нельзя не упомянуть и об угрозах, с которыми уже сейчас сталкиваются творческие индустрии. Музыкальные генераторы на базе искусственного интеллекта могут создавать новую музыку в любом стиле и жанре. Ответы на поисковые запросы, сгенерированные ИИ, избавляют пользователей от необходимости заходить на новостные, образовательные и развлекательные порталы.
3. Квантовое преимущество: доступ к квантовым экспериментам в облаке
34% «трансформаторов» планируют инвестировать в квантовые вычисления ближе к концу 2025 года. Перспективы велики: у организаций, наращивающих мышцы прямо сейчас, есть все шансы вырваться вперед в будущем, но все же это экспериментальное поле. Инвестициям в квантовые вычисления потребуются годы, чтобы окупиться.
Ведущие отрасли, инвестирующие в квантовые вычисления к концу 2025 года:
- СМИ, информация, телекоммуникации и технологии: 33%
- Правительство/государственный сектор: 27%
- Финансовые услуги: 20%
- Образование: 13%
4. Постквантовая криптография: переходим на квантовоустойчивое шифрование, пока не стало слишком поздно
Идет обратный отсчет до Q-дня – момента, когда квантовые компьютеры всего за сутки смогут взломать шифрование с открытым ключом. Однажды это случится, и мы не знаем точно, сколько времени у нас есть. Более половины экспертов в области квантовых вычислений, опрошенных Global Risk Institute, оценивают в 50% вероятность того, что это случится в ближайшие 15 лет.
К 2026 году не менее трети организаций будут инвестировать в постквантовую криптографию.
#тренды #ии #нейросети #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Info-Tech trends 2025: цифровые люди
5. Аватары с искусственным интеллектом: имитация человеческого взаимодействия по разным каналам
Число чат-ботов растет. Веб-агенты скоро станут мейнстримом.
Ожидается, что в 2025 году значительный скачок вперед сделает голосовой ИИ. Еще недавно сгенерированный нейросетями голос использовался в основном в предварительно записанных материалах, но теперь с ним можно работать в режиме реального времени. Реалистичный видеоконтент с цифровыми людьми еще не совершенен, но некоторые короткие видео уже вполне способны обмануть разумного наблюдателя.
Идея цифровых симулякров, влияющих на экономику и взаимодействие с реальными людьми показалась бы большинству из нас дикой всего несколько лет назад. Но в 2025 цифровые люди в социальных сетях, подкастах, аудиокнигах, фильмах и видеоиграх уже никого не удивят. Таких персонажей как цифровой инфлюэнсер Лил Микела или аватар Уильяма Шетнера (знали ли вы, что актер, сыгравший капитана Кирка в «Звездном пути» оцифровал свой интеллект «для будущих поколений»? ) станет больше.
6. Защита от дипфейков: противодействие атакам с использованием ИИ
Принцип апостола Фомы «пока сам не увижу, не поверю» может дать сбой. Мы вступаем в эпоху дипфейков – убедительно выглядящих цифровых имитаций реальных людей.
В Докладе о глобальных рисках 2024 на Всемирном экономическом форуме дезинформация была названа самой серьезной угрозой, с которой столкнется мир в ближайшие два года. Стоит помнить о том, что
- некоторые давно проверенные тактики защиты от злоумышленников по-прежнему актуальны.
- изо дня в день мы боремся не только с пороками общества, но и несовершенством человеческой природы. Возможно, здесь нам не хватает очень важной способности, которой обладают машины: беспристрастно обрабатывать информацию.
Подробнее
#тренды #ии #нейросети #llm
5. Аватары с искусственным интеллектом: имитация человеческого взаимодействия по разным каналам
Число чат-ботов растет. Веб-агенты скоро станут мейнстримом.
Ожидается, что в 2025 году значительный скачок вперед сделает голосовой ИИ. Еще недавно сгенерированный нейросетями голос использовался в основном в предварительно записанных материалах, но теперь с ним можно работать в режиме реального времени. Реалистичный видеоконтент с цифровыми людьми еще не совершенен, но некоторые короткие видео уже вполне способны обмануть разумного наблюдателя.
Идея цифровых симулякров, влияющих на экономику и взаимодействие с реальными людьми показалась бы большинству из нас дикой всего несколько лет назад. Но в 2025 цифровые люди в социальных сетях, подкастах, аудиокнигах, фильмах и видеоиграх уже никого не удивят. Таких персонажей как цифровой инфлюэнсер Лил Микела или аватар Уильяма Шетнера (
6. Защита от дипфейков: противодействие атакам с использованием ИИ
Принцип апостола Фомы «пока сам не увижу, не поверю» может дать сбой. Мы вступаем в эпоху дипфейков – убедительно выглядящих цифровых имитаций реальных людей.
В Докладе о глобальных рисках 2024 на Всемирном экономическом форуме дезинформация была названа самой серьезной угрозой, с которой столкнется мир в ближайшие два года. Стоит помнить о том, что
- некоторые давно проверенные тактики защиты от злоумышленников по-прежнему актуальны.
- изо дня в день мы боремся не только с пороками общества, но и несовершенством человеческой природы. Возможно, здесь нам не хватает очень важной способности, которой обладают машины: беспристрастно обрабатывать информацию.
Подробнее
#тренды #ии #нейросети #llm