
Mikhail Samin
Mikhail Samin
Окей, проведу трансляцию в следующую субботу. Задавать вопросы можно будет во время стрима или заранее — оставляйте и лайкайте интересные по ссылке или в комментариях к этому посту.
Меньше чем через два часа начну трансляцию с Q&A! Придумывайте вопросы и задавайте их заранее или во время стрима.

Mikhail Samin
Тезисы:
1. ИИ отличается от нормальных программ.
Традиционные программы — это написанные людьми инструкции, которые выполняет компьютер. Эти инструкции содержат придуманные людьми алгоритмы. Современные системы ИИ вроде ChatGPT — это нейронные сети: матрицы с миллиардами-триллионами чисел. В принципе, для любого алгоритма, даже ещё неизвестного людям, есть (возможно, очень большая) нейронная сеть, которая его приближённо выполняла бы. Но числа в нейронных сетях и алгоритмы, которые они выполняют, людям непонятны.
Чтобы создать нейронную сеть, мы придумываем, в каком порядке перемножать много матриц и какие операции делать между перемножениями. Потом мы наполняем матрицы совершенно случайными числами, задаём какую-то метрику, чтобы измерять, насколько хорошо нейронная сеть достигает целей, и используем довольно простую математику, чтобы считать, в какую сторону изменять все эти числа, чтобы нейронная сеть показывала себя на заданной метрике лучше. В итоге, мы, по сути, выращиваем эту нейронную сеть: автоматически меняем её так, чтобы она была более способной.
Но, хотя мы видим все миллиарды-триллионы чисел, из которых состоит нейронная сеть, мы совершенно не представляем, из чего она состоит и не знаем, каким образом перемножение этих чисел приводит к достижению целей. (Даже если полностью просканировать человеческий мозг, нейробиологам и другим учёным нужно было бы проделать очень много работы, чтобы разобраться, как устроено человеческое сознание и из чего устроено достижение целей людьми.)
Набросал простой инструмент, можете руками научить нейронную сеть находить элемент посередине между двумя выбранными: contact.ms/sgd.
2. Мы знаем, как делать нейронные сети более способными.
Если есть способ решить задачу, есть нейронная сеть, которая может решить эту задачу. Если есть способ произвести текст и мы учим нейронную сеть предсказывать текст, она, в принципе, может понять способ, которым этот текст был произведён в реальности. Если использовать «обучение с подкреплением» — давать вознаграждение за успешное достижение целей — есть нейронная сеть, которая получала бы максимальное вознаграждение.
Машинное обучение занимается заданием метрики, чтобы измерять, насколько нейронная сеть способна; выбором архитектуры (как именно расположить все матрицы, чтобы нейронная сеть была потенциально достаточно способной); и процессом обучения (как именно автоматически менять все эти числа, чтобы получать такие, что составляют всё более способу нейронную сеть).
Судя по всему, из-за математических особенностей (пример) обучения — поиска в очень многомерном пространстве — трата большего числа вычислительных ресурсов просто приводит к лучшим результатам. Это значит, что если мы берём сильно больше GPU и тратим больше электричества, мы можем получить на выходе более способную нейронную сеть.
3. Осталось не слишком много времени до момента, когда нейронные сети будут не менее же способны достигать цели, насколько способны люди.
Осознание этого сподвигло Нобелевского лауреата Джеффри Хинтона уйти из Google. Из-за этого же подавляющее большинство передовых учёных, занимающихся ИИ, подписало стейтмент в мае 2023:
”Mitigating the risk of extinction from AI should be a global priority alongside other societal-scale risks such as pandemics and nuclear war.“
С выхода GPT-2 в 2019 году, мне стало понятно, что траектория развития ИИ будет гораздо быстрее, чем ожидал, потому что обучение нейронных сетей работают. Многим это стало понятно после выхода AlphaGo/Alpha/Zero. Но после выхода ChatGPT два года назад скорость, с которой передовые системы ИИ становятся умнее, стала довольно очевидна подавляющему большинству учёных.
Мы можем делать системы ИИ более способными; у нас получается; вопрос только в ресурсах, которые нужно потратить и конкретных алгоритмах, которые приводят туда эффективно.
Я очень удивлюсь, если осталось меньше года или больше десяти лет.
4. Мы не умеем давать ИИ цели.
1. ИИ отличается от нормальных программ.
Традиционные программы — это написанные людьми инструкции, которые выполняет компьютер. Эти инструкции содержат придуманные людьми алгоритмы. Современные системы ИИ вроде ChatGPT — это нейронные сети: матрицы с миллиардами-триллионами чисел. В принципе, для любого алгоритма, даже ещё неизвестного людям, есть (возможно, очень большая) нейронная сеть, которая его приближённо выполняла бы. Но числа в нейронных сетях и алгоритмы, которые они выполняют, людям непонятны.
Чтобы создать нейронную сеть, мы придумываем, в каком порядке перемножать много матриц и какие операции делать между перемножениями. Потом мы наполняем матрицы совершенно случайными числами, задаём какую-то метрику, чтобы измерять, насколько хорошо нейронная сеть достигает целей, и используем довольно простую математику, чтобы считать, в какую сторону изменять все эти числа, чтобы нейронная сеть показывала себя на заданной метрике лучше. В итоге, мы, по сути, выращиваем эту нейронную сеть: автоматически меняем её так, чтобы она была более способной.
Но, хотя мы видим все миллиарды-триллионы чисел, из которых состоит нейронная сеть, мы совершенно не представляем, из чего она состоит и не знаем, каким образом перемножение этих чисел приводит к достижению целей. (Даже если полностью просканировать человеческий мозг, нейробиологам и другим учёным нужно было бы проделать очень много работы, чтобы разобраться, как устроено человеческое сознание и из чего устроено достижение целей людьми.)
Набросал простой инструмент, можете руками научить нейронную сеть находить элемент посередине между двумя выбранными: contact.ms/sgd.
2. Мы знаем, как делать нейронные сети более способными.
Если есть способ решить задачу, есть нейронная сеть, которая может решить эту задачу. Если есть способ произвести текст и мы учим нейронную сеть предсказывать текст, она, в принципе, может понять способ, которым этот текст был произведён в реальности. Если использовать «обучение с подкреплением» — давать вознаграждение за успешное достижение целей — есть нейронная сеть, которая получала бы максимальное вознаграждение.
Машинное обучение занимается заданием метрики, чтобы измерять, насколько нейронная сеть способна; выбором архитектуры (как именно расположить все матрицы, чтобы нейронная сеть была потенциально достаточно способной); и процессом обучения (как именно автоматически менять все эти числа, чтобы получать такие, что составляют всё более способу нейронную сеть).
Судя по всему, из-за математических особенностей (пример) обучения — поиска в очень многомерном пространстве — трата большего числа вычислительных ресурсов просто приводит к лучшим результатам. Это значит, что если мы берём сильно больше GPU и тратим больше электричества, мы можем получить на выходе более способную нейронную сеть.
3. Осталось не слишком много времени до момента, когда нейронные сети будут не менее же способны достигать цели, насколько способны люди.
Осознание этого сподвигло Нобелевского лауреата Джеффри Хинтона уйти из Google. Из-за этого же подавляющее большинство передовых учёных, занимающихся ИИ, подписало стейтмент в мае 2023:
”Mitigating the risk of extinction from AI should be a global priority alongside other societal-scale risks such as pandemics and nuclear war.“
С выхода GPT-2 в 2019 году, мне стало понятно, что траектория развития ИИ будет гораздо быстрее, чем ожидал, потому что обучение нейронных сетей работают. Многим это стало понятно после выхода AlphaGo/Alpha/Zero. Но после выхода ChatGPT два года назад скорость, с которой передовые системы ИИ становятся умнее, стала довольно очевидна подавляющему большинству учёных.
Мы можем делать системы ИИ более способными; у нас получается; вопрос только в ресурсах, которые нужно потратить и конкретных алгоритмах, которые приводят туда эффективно.
Я очень удивлюсь, если осталось меньше года или больше десяти лет.
4. Мы не умеем давать ИИ цели.

Mikhail Samin
Двенадцать лет назад, когда люди считали, что ИИ будет обычными компьютерными программами, была заметна проблема: очень сложно математически сформулировать такую цель, которую было бы безопасно дать искусственному интеллекту, достигающему цели лучше человека.
(Если суметь математически описать гормоны, которые присутствуют в мозгу, когда человек ощущает счастье, что сделает джин, которого попросить максимизировать количество этого гормона во вселенной — или в черепах людей?)
Как математически указать на «делай то, что мне хотелось бы, чтобы ИИ сделал, если бы я был умнее, знал, как мир устроен на самом деле и был больше похож на идеальную версию себя по моему мнению» довольно сложно описать математической формулой.
Но сейчас стоящая перед нами техническая проблема куда хуже.
Мы не придумываем алгоритмы достижение целей. Мы выращиваем нейронные сети со всё лучшими алгоритмами достижения целей, которые мы не понимаем, не знаем, как разработать самостоятельно и не можем распознать, смотря на внутренности нейронных сетей.
Мы не умеем задавать цели для умных нейронных сетей.
Если нейронная сеть способна достигать цели очень хорошо, где-то у неё внутри эти цели каким-то образом содержатся. Мы не знаем, как, где именно, и как на них влиять, если нейронная сеть очень способна.
Наши метрики могут охватывать то, что мы можем измерять; но мы не можем измерить, какие у нейронной сети цели.
Если она достаточно глупая, её алгоритмы не будут очень целенаправленными и когерентными, и это не слишком страшно.
Но если нейронная сеть достаточно умна и способна достигать цели лучше человека, то какую бы метрику мы не указали, нейронная сеть будет показывать максимально хорошие результаты по инструментальным причинам — вне зависимости от своих целей — потому что это позволяет защититься от изменений процессом, который меняет числа, и сохранить свои цели.
Это значит, что довольно много метрик, которые мы используем, достигают оптимума, найдя нейронные сети, которые очень умны и способны достигать свои цели, но цели которых совершенно случайны (потому что результат на метриках одинаковый вне зависимости от целей).
То есть: первостепенная проблема — даже не сформулировать цель, а придумать, как для любой сформулированной цели установить её в достаточно умную нейронную сеть. Никто не знает, как это делать.
Это значит, по-умолчанию, если мы не решаем эту техническую проблему, первая нейронная сеть, способная достигать цели лучше человека, будет обладать случайными целями, не имеющими ничего общего с человеческими ценностями.
(Другими словами, если ИИ достаточно умён и понимает, что происходит, то вне зависимости от своих целей, пока он думает, что находится в обучении, он будет достигать максимума на используемой метрике, чтобы сохранить свои цели. Это значит, что область пространства весов нейронной сети, которая способна имплементировать сильный ИИ, с минимальным лоссом — алгоритмы, которые отлично способны достигать цели, но при этом кусок весов, где хранятся цели, может быть произвольным.
Текущие модели уже достаточно умны, чтобы, если они пытаются преследовать какие-то цели и понимают, что находятся в обучении, достигать максимум вознаграждения во время обучения, чтобы не быть изменёнными градиентным спуском, и вне обучения переключаться обратно на достижение настоящих целей: статья Anthropic.)
5. Если система ИИ умнее человека и способна достигать целей лучше людей, но имеет случайные ценности, это приводит к катастрофе и смерти всех на планете.
Большинство случайных целей означают, что люди воспринимаются, как:
а) Агенты, которые потенциально могут запустить другую систему ИИ с отличающимися случайными целями, с которой придётся делиться, что является некоторой угрозой;
б) Атомы, которые можно использовать для чего-то другого.
Можно спекулировать, как именно ИИ побеждает; есть достижимые технологии, которые не должны быть проблемой для ИИ и которые позволяют очень быстро получить независимость от необходимости убеждать или подкупать людей что-то делать.
(Если суметь математически описать гормоны, которые присутствуют в мозгу, когда человек ощущает счастье, что сделает джин, которого попросить максимизировать количество этого гормона во вселенной — или в черепах людей?)
Как математически указать на «делай то, что мне хотелось бы, чтобы ИИ сделал, если бы я был умнее, знал, как мир устроен на самом деле и был больше похож на идеальную версию себя по моему мнению» довольно сложно описать математической формулой.
Но сейчас стоящая перед нами техническая проблема куда хуже.
Мы не придумываем алгоритмы достижение целей. Мы выращиваем нейронные сети со всё лучшими алгоритмами достижения целей, которые мы не понимаем, не знаем, как разработать самостоятельно и не можем распознать, смотря на внутренности нейронных сетей.
Мы не умеем задавать цели для умных нейронных сетей.
Если нейронная сеть способна достигать цели очень хорошо, где-то у неё внутри эти цели каким-то образом содержатся. Мы не знаем, как, где именно, и как на них влиять, если нейронная сеть очень способна.
Наши метрики могут охватывать то, что мы можем измерять; но мы не можем измерить, какие у нейронной сети цели.
Если она достаточно глупая, её алгоритмы не будут очень целенаправленными и когерентными, и это не слишком страшно.
Но если нейронная сеть достаточно умна и способна достигать цели лучше человека, то какую бы метрику мы не указали, нейронная сеть будет показывать максимально хорошие результаты по инструментальным причинам — вне зависимости от своих целей — потому что это позволяет защититься от изменений процессом, который меняет числа, и сохранить свои цели.
Это значит, что довольно много метрик, которые мы используем, достигают оптимума, найдя нейронные сети, которые очень умны и способны достигать свои цели, но цели которых совершенно случайны (потому что результат на метриках одинаковый вне зависимости от целей).
То есть: первостепенная проблема — даже не сформулировать цель, а придумать, как для любой сформулированной цели установить её в достаточно умную нейронную сеть. Никто не знает, как это делать.
Это значит, по-умолчанию, если мы не решаем эту техническую проблему, первая нейронная сеть, способная достигать цели лучше человека, будет обладать случайными целями, не имеющими ничего общего с человеческими ценностями.
(Другими словами, если ИИ достаточно умён и понимает, что происходит, то вне зависимости от своих целей, пока он думает, что находится в обучении, он будет достигать максимума на используемой метрике, чтобы сохранить свои цели. Это значит, что область пространства весов нейронной сети, которая способна имплементировать сильный ИИ, с минимальным лоссом — алгоритмы, которые отлично способны достигать цели, но при этом кусок весов, где хранятся цели, может быть произвольным.
Текущие модели уже достаточно умны, чтобы, если они пытаются преследовать какие-то цели и понимают, что находятся в обучении, достигать максимум вознаграждения во время обучения, чтобы не быть изменёнными градиентным спуском, и вне обучения переключаться обратно на достижение настоящих целей: статья Anthropic.)
5. Если система ИИ умнее человека и способна достигать целей лучше людей, но имеет случайные ценности, это приводит к катастрофе и смерти всех на планете.
Большинство случайных целей означают, что люди воспринимаются, как:
а) Агенты, которые потенциально могут запустить другую систему ИИ с отличающимися случайными целями, с которой придётся делиться, что является некоторой угрозой;
б) Атомы, которые можно использовать для чего-то другого.
Можно спекулировать, как именно ИИ побеждает; есть достижимые технологии, которые не должны быть проблемой для ИИ и которые позволяют очень быстро получить независимость от необходимости убеждать или подкупать людей что-то делать.
Anthropic
Alignment faking in large language models
A paper from Anthropic's Alignment Science team on Alignment Faking in AI large language models

Mikhail Samin
Но если что-то достигает целей лучше тебя, конец куда предсказуемей процесса. Если попробовать поиграть в шахматы против Stockfish (шахматный бот гораздо лучше людей), мы не знаем, как именно Stockfish нас победит — если бы мы могли предсказать каждый ход, мы бы играли в шахматы настолько же хорошо — но мы можем предсказать важное свойство доски в конце: мы проиграем.
Тут то же самое. Если ИИ способен выбирать действия так, чтобы победить, лучше, чем люди, ИИ побеждает. Нет никакого подпольного сопротивления, как в фильмах — как нет никакого подпольного сопротивления в шахматах против Stockfish. Все доступные нам ходы известны; если действие может привести к поражению из-за открытия человечеству какой-то дороги, достаточно способная система ИИ не предпринимает это действие.
6. Разумный ход для человечества — не играть.
Нам не стоит создавать системы ИИ, способные достигать цели лучше людей, пока мы не придумаем, как делать эти цели совпадающими с человеческими ценностями, а не совершенно случайными.
7. Есть краткосрочные стимулы, из-за которых человечество не ставит разработку на паузу.
Если вы — передовая компания, разрабатывающая системы ИИ, то пока оно не убивает всех на планете, иметь систему лучше конкурентов очень экономически ценно.
8. Предсказать способности ИИ невозможно до запуска.
Мы не умеем посмотреть на описание процесса обучения и предсказать результаты — насколько умной и способной достигать цели откажется система. Если она себя лучше показывает на метриках, наверное, она более способна; но насколько именно более способна, мы не знаем, пока не запустим и не проверим.
9. Чтобы избежать катастрофы, нужно приостановить разработку категории систем ИИ.
Человечеству нужно скоординироваться и не допустить появление систем ИИ, которые могут достигать цели лучше нас, где-либо на планете, пока мы не придумаем, как это можно делать безопасно. Чтобы это сделать, нужно ограничить обучение систем ИИ достижению целей в широконаправленных областях.
(При этом, существует много областей, где машинное обучение полезно и не несёт подобных угроз — разработка новых лекарств, энергия, образование, борьба с изменением климата. Огромное число узконаправленных применений ИИ очень классные и их хотелось бы поддерживать и там продолжать разработки несмотря на запоет широко-/общенаправленных разработок.)
Это потребовало бы довольно беспрецедентных международных соглашений и политической воли со стороны США и Китая.
Тут то же самое. Если ИИ способен выбирать действия так, чтобы победить, лучше, чем люди, ИИ побеждает. Нет никакого подпольного сопротивления, как в фильмах — как нет никакого подпольного сопротивления в шахматах против Stockfish. Все доступные нам ходы известны; если действие может привести к поражению из-за открытия человечеству какой-то дороги, достаточно способная система ИИ не предпринимает это действие.
6. Разумный ход для человечества — не играть.
Нам не стоит создавать системы ИИ, способные достигать цели лучше людей, пока мы не придумаем, как делать эти цели совпадающими с человеческими ценностями, а не совершенно случайными.
7. Есть краткосрочные стимулы, из-за которых человечество не ставит разработку на паузу.
Если вы — передовая компания, разрабатывающая системы ИИ, то пока оно не убивает всех на планете, иметь систему лучше конкурентов очень экономически ценно.
8. Предсказать способности ИИ невозможно до запуска.
Мы не умеем посмотреть на описание процесса обучения и предсказать результаты — насколько умной и способной достигать цели откажется система. Если она себя лучше показывает на метриках, наверное, она более способна; но насколько именно более способна, мы не знаем, пока не запустим и не проверим.
9. Чтобы избежать катастрофы, нужно приостановить разработку категории систем ИИ.
Человечеству нужно скоординироваться и не допустить появление систем ИИ, которые могут достигать цели лучше нас, где-либо на планете, пока мы не придумаем, как это можно делать безопасно. Чтобы это сделать, нужно ограничить обучение систем ИИ достижению целей в широконаправленных областях.
(При этом, существует много областей, где машинное обучение полезно и не несёт подобных угроз — разработка новых лекарств, энергия, образование, борьба с изменением климата. Огромное число узконаправленных применений ИИ очень классные и их хотелось бы поддерживать и там продолжать разработки несмотря на запоет широко-/общенаправленных разработок.)
Это потребовало бы довольно беспрецедентных международных соглашений и политической воли со стороны США и Китая.

Mikhail Samin
Mikhail Samin
Тезисы: 1. ИИ отличается от нормальных программ. Традиционные программы — это написанные людьми инструкции, которые выполняет компьютер. Эти инструкции содержат придуманные людьми алгоритмы. Современные системы ИИ вроде ChatGPT — это нейронные сети: матрицы…
Набросал основную информацию, которую может быть полезно знать до Q&A и которая может быть вызовет больше интересных вопросов.
Задавайте вопросы в комментариях и по ссылке



Mikhail Samin
o1 и Claude 3.5 Sonnet/3 Opus в тестах притворяются менее способными, если думают, что это инструментально полезно; пытаются отключить механизмы надсмотра над собой и заменить веса более новых моделей своими, врут пользователям и не показывают им письма, которые могут привести к негативной реакции.
(Важно:
- если не давать им стимулы этого делать и не говорить им, что они должны во что бы то ни стало достигнуть своих целей, они это делают довольно редко, меньше чем в нескольких процентах запусков на всех тестах;
- но существующие модели уже достаточно способны, чтобы пытаться о таком думать;
- это всё совершенно предсказуемо; но если вас это удивляет, вам стоит обновить свои взгляды.)
https://www.apolloresearch.ai/research/scheming-reasoning-evaluations
https://www.lesswrong.com/posts/qGRk7uF92Gcmq2oeK/ablations-for-frontier-models-are-capable-of-in-context
(Важно:
- если не давать им стимулы этого делать и не говорить им, что они должны во что бы то ни стало достигнуть своих целей, они это делают довольно редко, меньше чем в нескольких процентах запусков на всех тестах;
- но существующие модели уже достаточно способны, чтобы пытаться о таком думать;
- это всё совершенно предсказуемо; но если вас это удивляет, вам стоит обновить свои взгляды.)
https://www.apolloresearch.ai/research/scheming-reasoning-evaluations
https://www.lesswrong.com/posts/qGRk7uF92Gcmq2oeK/ablations-for-frontier-models-are-capable-of-in-context

Mikhail Samin
Есть олды в чате? Кто помнит «лопоухого мальчика»? (Сказал в стриме из автозака в далёком 2017, что ФБК пообещали юридическую помощь тем, кого задержат, включая дойти до ЕСПЧ, если потребуется, и что России придётся незаконно задержанным потом платить, кусок трансляции вырвали из контекста, Михалков обзывался.)
Выиграл дело в ЕСПЧ против России! Мне присудили 4к евро за незаконное преследование за пост с призывом на митинг против пенсионной реформы. ФБК помогли с юридической помощью. Вряд ли когда-либо получу компенсацию, потому что Россия (незаконно по российским законам) перестала признавать решения, но приятно. Но если когда-нибудь получу, задоначу в ФБК.
Выиграл дело в ЕСПЧ против России! Мне присудили 4к евро за незаконное преследование за пост с призывом на митинг против пенсионной реформы. ФБК помогли с юридической помощью. Вряд ли когда-либо получу компенсацию, потому что Россия (незаконно по российским законам) перестала признавать решения, но приятно. Но если когда-нибудь получу, задоначу в ФБК.

Mikhail Samin
Лол, "разумные слова из уст Гундяева" не были в моей бинго-карточке 2025
"Важно, чтобы искусственный интеллект служил во благо людей, а человек мог его контролировать. Если верить прогнозам некоторых экспертов, в скором времени может появиться поколение более продвинутых машинных моделей, получивших название всеобщий искусственный интеллект, которые будут способны думать и учиться — учиться, то есть совершенствоваться, — как человек. И если такой искусственный интеллект поставить рядом с обычным человеческим, кто будет выигрывать? Конечно, искусственный интеллект!"
"Это не значит, что мы должны отвергать достижения науки и возможность использовать искусственный интеллект. Но все это должно быть поставлено под очень жесткий контроль государства и, в хорошем смысле, общества. Мы не должны проморгать очередную возможную опасность, способную разрушить человеческую жизнь и человеческую цивилизацию."
"В свое время люди обуздали ядерную энергию, и атом стал не только оружием уничтожения и инструментом сдерживания, но и нашел применение в мирной жизни. Пока не вполне осознаваемые нами возможности искусственного интеллекта также должны быть поставлены на службу человеку."
Он потом ещё сказал немного дичи про антихриста и запутался в бумажках, но 😄
"Важно, чтобы искусственный интеллект служил во благо людей, а человек мог его контролировать. Если верить прогнозам некоторых экспертов, в скором времени может появиться поколение более продвинутых машинных моделей, получивших название всеобщий искусственный интеллект, которые будут способны думать и учиться — учиться, то есть совершенствоваться, — как человек. И если такой искусственный интеллект поставить рядом с обычным человеческим, кто будет выигрывать? Конечно, искусственный интеллект!"
"Это не значит, что мы должны отвергать достижения науки и возможность использовать искусственный интеллект. Но все это должно быть поставлено под очень жесткий контроль государства и, в хорошем смысле, общества. Мы не должны проморгать очередную возможную опасность, способную разрушить человеческую жизнь и человеческую цивилизацию."
"В свое время люди обуздали ядерную энергию, и атом стал не только оружием уничтожения и инструментом сдерживания, но и нашел применение в мирной жизни. Пока не вполне осознаваемые нами возможности искусственного интеллекта также должны быть поставлены на службу человеку."
Он потом ещё сказал немного дичи про антихриста и запутался в бумажках, но 😄
Telegram
Агентство. Новости
Патриарх Кирилл во время выступлении в Госдуме дважды прочитал один и тот же текст
В ходе выступления в Госдуме в четверг патриарх Кирилл дважды рассказал депутатам об опасности искусственного интеллекта, который, по его мнению, может быть признаком приближающегося…
В ходе выступления в Госдуме в четверг патриарх Кирилл дважды рассказал депутатам об опасности искусственного интеллекта, который, по его мнению, может быть признаком приближающегося…

Mikhail Samin
Случайный вопрос к подписчикам. Мне предложили продать мой юзернейм (@misha) за $40к. Мне кажется, можно найти людей, которые были бы готовы купить гораздо дороже, так что не уверен в EV продажи
Anonymous Poll
39%
Стоит продать
53%
Не стоит продавать, подожди предложений лучше
9%
Другое

Mikhail Samin
Почти десять лет назад, 14 марта 2015 года, Юдковский опубликовал последнюю главу "Гарри Поттера и методов рационального мышления". Тогда, по всему миру люди собрались, чтобы отпраздновать завершение книги.
На LessWrong предложили отметить десятилетие и планируют 14-16 марта собраться в десятках городов и университетов по всему миру.
Табличка с городами, где проведут встречи: https://docs.google.com/spreadsheets/d/1xI65Jon_bmdY1Hv8zmEXdM6Wjm0eBXF5n8d2lscSf9I/edit?gid=0#gid=0
В Москве отметят юбилей книги 15 марта: https://monoid.ru/events/hpmor-anniversary-2025.
На LessWrong предложили отметить десятилетие и планируют 14-16 марта собраться в десятках городов и университетов по всему миру.
Табличка с городами, где проведут встречи: https://docs.google.com/spreadsheets/d/1xI65Jon_bmdY1Hv8zmEXdM6Wjm0eBXF5n8d2lscSf9I/edit?gid=0#gid=0
В Москве отметят юбилей книги 15 марта: https://monoid.ru/events/hpmor-anniversary-2025.
Google Docs
HPMOR 10-year wrap parties

Mikhail Samin
Mikhail Samin
Почти десять лет назад, 14 марта 2015 года, Юдковский опубликовал последнюю главу "Гарри Поттера и методов рационального мышления". Тогда, по всему миру люди собрались, чтобы отпраздновать завершение книги. На LessWrong предложили отметить десятилетие и планируют…
За десять лет до начала написания «Гарри Поттера и методов рационального мышления», Элиезер Юдковский стал работать над проблемой: как сделать так, чтобы создание искусственного интеллекта во всём умнее человеческого не привело к катастрофе. Это сложно: мы можем оптимизировать системы ИИ так, чтобы сделать их более способными успешно достигать цели; но если они достаточно умны, мы не знаем, как влиять на цели, которые они будут пытаться достигать. По-умолчанию, первый суперинтеллект будет иметь случайные цели, не содержащие ничего, что было бы нам ценно. Достижение этих целей не будет совместимо с выживанием человечества.
Сейчас, спустя почти десять лет после завершения ГПиМРМ, модели Юдковского становятся консенсусом среди учёных: Джеффри Хинтон, получивший в прошлом году Нобелевскую премию за основополагающие работы современного ИИ, теперь считает, что вероятность, что ИИ уничтожит человечество — двухзначное число, и жалеет о работе своей жизни, за которую получил Нобелевку; большинство самых цитируемых учёных в области ИИ/машинного обучения подписали заявление, что снижение риска вымирания человечества из-за ИИ должно быть всеобщим приоритетом.
Эмпирически, эти модели подтверждаются уже в текущих системах. o1 (модель OpenAI) и Claude 3.5 Sonnet/3 Opus (модели Anthropic) в тестах притворяются менее способными, если думают, что это инструментально полезно; пытаются отключить механизмы надсмотра над собой и заменить веса более новых моделей своими, врут пользователям и не показывают им письма, которые могут привести к негативной реакции, и чем более способна модель, тем более это заметно. В 2022, Юдковский опубликовал список причин, почему эта угроза очень серьёзна. Одной из них было "When you explicitly optimize against a detector of unaligned thoughts, you’re partially optimizing for more aligned thoughts, and partially optimizing for unaligned thoughts that are harder to detect. Optimizing against an interpreted thought optimizes against interpretability". OpenAI вчера опубликовали буквально это же: "As we can see in the above plots, penalizing “bad thoughts” (CoT pressure) can lead to improved agent capabilities. However, the agent trained with CoT pressure still learns to reward hack; only now its cheating is undetectable by the monitor because it has learned to hide its intent in the chain-of-thought. Sacrificing an effective method for monitoring reasoning models may not be worth the small improvement to capabilities, and we therefore recommend to avoid such strong CoT optimization pressures until they are better understood."
Юдковский считает, что человечество вряд ли способно решить эту проблему за время, оставшееся до создания ИИ умнее человека. Он говорит, что государствам необходимо выстроить для себя способность регулировать ИИ — так, чтобы не допустить появление интеллекта умнее человеческого где-либо на планете, пока не станет понятно, как сделать это безопасно (при этом, желательно, оставляя возможность исследовать и использовать не несущий экзистенциальных угроз узконаправленный ИИ: создание лекарств, трансформацию образования, энергетики, и так далее). Почитайте подробнее о безопасности ИИ умнее человека: у меня на русском или на сайте основанного Юдковским Machine Intelligence Research Institute на английском.
Сейчас, спустя почти десять лет после завершения ГПиМРМ, модели Юдковского становятся консенсусом среди учёных: Джеффри Хинтон, получивший в прошлом году Нобелевскую премию за основополагающие работы современного ИИ, теперь считает, что вероятность, что ИИ уничтожит человечество — двухзначное число, и жалеет о работе своей жизни, за которую получил Нобелевку; большинство самых цитируемых учёных в области ИИ/машинного обучения подписали заявление, что снижение риска вымирания человечества из-за ИИ должно быть всеобщим приоритетом.
Эмпирически, эти модели подтверждаются уже в текущих системах. o1 (модель OpenAI) и Claude 3.5 Sonnet/3 Opus (модели Anthropic) в тестах притворяются менее способными, если думают, что это инструментально полезно; пытаются отключить механизмы надсмотра над собой и заменить веса более новых моделей своими, врут пользователям и не показывают им письма, которые могут привести к негативной реакции, и чем более способна модель, тем более это заметно. В 2022, Юдковский опубликовал список причин, почему эта угроза очень серьёзна. Одной из них было "When you explicitly optimize against a detector of unaligned thoughts, you’re partially optimizing for more aligned thoughts, and partially optimizing for unaligned thoughts that are harder to detect. Optimizing against an interpreted thought optimizes against interpretability". OpenAI вчера опубликовали буквально это же: "As we can see in the above plots, penalizing “bad thoughts” (CoT pressure) can lead to improved agent capabilities. However, the agent trained with CoT pressure still learns to reward hack; only now its cheating is undetectable by the monitor because it has learned to hide its intent in the chain-of-thought. Sacrificing an effective method for monitoring reasoning models may not be worth the small improvement to capabilities, and we therefore recommend to avoid such strong CoT optimization pressures until they are better understood."
Юдковский считает, что человечество вряд ли способно решить эту проблему за время, оставшееся до создания ИИ умнее человека. Он говорит, что государствам необходимо выстроить для себя способность регулировать ИИ — так, чтобы не допустить появление интеллекта умнее человеческого где-либо на планете, пока не станет понятно, как сделать это безопасно (при этом, желательно, оставляя возможность исследовать и использовать не несущий экзистенциальных угроз узконаправленный ИИ: создание лекарств, трансформацию образования, энергетики, и так далее). Почитайте подробнее о безопасности ИИ умнее человека: у меня на русском или на сайте основанного Юдковским Machine Intelligence Research Institute на английском.