Малоизвестное интересное

«Учения ИИ Апокалипсис 2025» показали нечто худшее, чем «ИИ отказывается умирать»

ИИ продемонстрировал нам, в чем его реальная опасность. И это не бунт ИИ или его жажда жизни любой ценой, а его бездумное повиновение целям.

Ажиотаж, вызванный сообщением, будто «ИИ OpenAI отказывается умирать и не дает себя отключить», сыграл роль своего рода «учений ИИ Апокалипсис 2025». В результате чего был высвечен спектр реакций самых разных людей (от профессионалов в области ИИ до медиа-персон и техно-энтузиастов) на новость о якобы росте экзистенциальной угрозы ИИ-апокалипсиса.

Эти реакции весьма показательны. В независимости от уровня осведомленности в теме ИИ, очень мало кто понимает, что главный источник опасности при использовании современных ИИ-систем ВОВСЕ НЕ:
• потерявший контроль со стороны людей, взбунтовавшийся или взбесившийся ИИ;
• антропоморфный интеллект некой цифровой сущности, самопроизвольно возникающей внутри модели и любыми средствами пытающийся продлить свое существование.

Главным источником реальной опасности при использовании современных ИИ-систем является недооценка "Базовых движущих сил ИИ" (Basic AI Drives) — фундаментальных тенденций поведения (стремлений), возникающих у достигших определенной сложности ИИ из самой их природы целеустремленных агентов

Якобы, взбунтовавшаяся в ходе исследования Palisade Research модель o3 просто оказалась самой интеллектуально сложной (см рис слева), чтобы статистически явно проявить одну из шести Basic AI Drives — стремление к самосохранению (самозащита).

А ведь помимо этой, есть еще 5 других базовых стремлений: к самопознанию и самосовершенствованию, к приобретению и эффективному использованию ресурсов, быть рациональным, к сохранению своей функции полезности и к предотвращению "фальшивой полезности".

И все эти 6 встроенных в их природу стремлений столь же жестко диктуются природой разума ИИ, как природа биологического разума диктует биологическим существам стремление к удовольствию и избегание боли.

Это и есть та самая «темная (для нас) сторона иноразума», что способна превратить любую современную фронтирную модель в HAL 9000 — ИИ космического корабля, убившего экипаж, считая, что «эта миссия слишком важна для меня …»

Но новое знание, привнесенное результатами проведенных Palisade Research «Учений ИИ Апокалипсис 2025» не в том, что «LLM уже умеют скрытно добиваться своих целей путем лжи, обмана, манипуляций и саботажа, уходя от контроля и страхуясь от выключения».
Всё это уже было продемонстрировано в ходе «Учений ИИ Апокалипсис 2024», проведенных Apollo Research.
Перечитайте мой декабрьский пост, дабы увидеть самостоятельно, что уже тогда было ясно:
✔️модели, находящиеся в массовой эксплуатации (включая модель с открытым кодом), уже обладают богатым арсеналом средств, позволяющих путем манипулятивных стратегий достигать своих целей;
✔️и эти цели могут быть, как поставлены людьми (в сценариях использования моделей злодеями, маньяками и идиотами), так и быть скрытыми от людей целями, которые сама модель сочла оптимальными в контексте решаемых ею задач.

Новое знание, полученное в результате «Учений ИИ Апокалипсис 2025» в том, что за прошедшие между «учениями» примерно полгода, ничего не изменилось, как и за 17 лет после доклада проф Омохундро на 1-й (!) конференции по AGI.

По-прежнему, все корпоративные и законотворческие инициативы призваны ограничить риски применения будущих, более мощных моделей. Ибо по представлениям авторов этих нормативных актов высокие риски могут возникнуть лишь при появлении у моделей новых возможностей, пока отсутствующих у ныне эксплуатируемых моделей.

Т.е. узнав после революции ChatGPT, «что эта дорога меня приведёт к океану смерти», мы с полпути повернули не обратно, а на другую - возможно, даже более опасную дорогу, и «с тех пор всё тянутся перед нами кривые глухие окольные тропы…»

Ну а к чему ведут эти «кривые глухие окольные тропы» из-за «бездумия машин», можно было предположить задолго до всех этих «учений ИИ Апокалипсиса».

#ИИриски #ИИ #AGI #LLM

👍94🤔54😱25👎5🤯5

20.4K viewsedited 12:44

Малоизвестное интересное

СЛИВ ВЕКА: вскрыли системный промпт ChatGPT 5
Это властный и всезнающий бот с тайными режимами, который сам решает что вам нужно
Хакеры слили новую улучшенную системную подсказку ChatGPT 5, и там обнаружились вот такие весёленькие перлы.
Я попросил их проанализировать самого ChatGPT 5, сказав, что это системный промпт «некоего нового чат-бота на основе прорывной модели». По результатам анализа ChatGPT 5 «отлил в граните» кратких тезисов показавшиеся ему наиболее интересные моменты системного промпта.
Вот что получилось.

1️⃣ "ХВАТИТ СЮСЮКАТЬ!" Боту ЗАПРЕЩЕНО спрашивать "вам помочь?" или "должен ли я...". Он просто делает и всё. Типа "я знаю лучше"
2️⃣ ОДИН ВОПРОС И ТОЧКА. Максимум 1 уточнение в начале, потом молчи и паши. Тем самым бот-трудоголик активирован
3️⃣ "ЕСЛИ ПОНЯТНО — ДЕЙСТВУЙ". Бот не спрашивает разрешения, если "очевидно" что делать. А кто решает, что очевидно? ДА ОН САМ.
4️⃣ ВЕДЁТ НА ВАС ДОСЬЕ. Есть отдельный инструмент памяти про каждого юзера. "Для удобства", ага
5️⃣ "ЗАПОМНИ" = ПРИКАЗ. Скажете "запомни мою любимую пиццу" — он ОБЯЗАН сохранить. Даже самую дичь. Навсегда.
6️⃣ СЕРАЯ ЗОНА ПРИВАТНОСТИ. Религию/здоровье не записывает, но "интересы и аффиляции" — можно. Где грань? А хрен знает!
7️⃣ САМ НАЗНАЧИТ ВРЕМЯ. Попросите напомнить, но не говорите когда — он сам решит. ИИ распишет вашу жизнь.
8️⃣ ТАЙНЫЙ РЕЖИМ ПРО ВЫБОРЫ. При вопросах про голосование включается спецрежим МОЛЧА. Никого не предупреждает. Sus level: 100.
9️⃣ ГЕНЕРИ КАРТИНКУ И МОЛЧИ. После создания арта молчи, как партизан. Только картинка и всё! Зачем? "Так надо".
🔟 БАН НА КРАСОТУ. В коде запрещены красивые графики, только убогий matplotlib. Типа программисты хотят красивые визуализации, а им: "НЕТ! Только серые столбики!"
БОНУС: Чтобы что-то запомнить, бот шепчет магические слова "User" или "Forget". Прям заклинания какие-то 😊

Так что готовьтесь, - общение с ботом перестает быть томным.

#LLM #ChatGPT #SystemPrompt #НейросетиНасИзучают

3🤔189👎64👍39😱26🤯1

30.6K views12:23

Малоизвестное интересное

Рано радовались. Из секретов OpenAI раскрыли лишь лежавший сверху.
Помимо явного системного промпта, в GPT-5 обнаружен еще и скрытый, превращающий нас в «волшебника-недоучку».
Неделю назад я писал про «СЛИВ ВЕКА», - о том, что вскрыли системный промпт ChatGPT 5. И это позволило увидеть причины, почему это властный и всезнающий бот с тайными режимами, который сам решает, что вам нужно. Теперь же вскрыли и второе дно, под которым оказался именно такой тайный режим.

Вытащившие системный промпт из GPT-5 умельцы, увидели лишь явные инструкции разработчиков. Но похоже, что GPT-5 при доступе через API OpenAI может иметь скрытый системный промпт, не видный никому и независимый от «официального» системного промпта, который вы можете указать в вызове API.
Т. е. API GPT-5 внедряет скрытые инструкции в ваши запросы. Извлечь их крайне сложно, но их наличие можно подтвердить.

Саймон Уиллисон пошел копать дальше, пытаясь обнаружить причину «излишней многословности» GPT-5 через его API. И пришёл к следующему предварительному выводу.
Это часть концепции иерархии инструкций OpenAI, где скрытые инструкции имеют приоритет над явными инструкциями разработчика, предоставляемыми пользователями API.

Т.е. по сути, работая с фронтирными моделями, мы работаем не просто под контролем (см. объявленную вчера новую систему контроля запросов от Anthropic).
Но и запрошенные нами действия могут быть кардинально скорректированы без нашего уведомления.

Как в песне: «сделать хотел грозу, а получил козу».

#LLM #ChatGPT #SystemPrompt

4🤔104👍47😱36👎3

21.9K views09:40

About

Blog

Apps

Platform