Вы наверное уже видели.
Claim: gpt-5-pro can prove new interesting mathematics.
Proof: I took a convex optimization paper with a clean open problem in it and asked gpt-5-pro to work on it. It proved a better bound than what is in the paper, and I checked the proof it's correct.
Details below.
https://x.com/SebastienBubeck/status/1958198661139009862?t=m5Mzg_cRq9lLqgrx3yIzIQ&s=19
Claim: gpt-5-pro can prove new interesting mathematics.
Proof: I took a convex optimization paper with a clean open problem in it and asked gpt-5-pro to work on it. It proved a better bound than what is in the paper, and I checked the proof it's correct.
Details below.
https://x.com/SebastienBubeck/status/1958198661139009862?t=m5Mzg_cRq9lLqgrx3yIzIQ&s=19
X (formerly Twitter)
Sebastien Bubeck (@SebastienBubeck) on X
Claim: gpt-5-pro can prove new interesting mathematics.
Proof: I took a convex optimization paper with a clean open problem in it and asked gpt-5-pro to work on it. It proved a better bound than what is in the paper, and I checked the proof it's correct.…
Proof: I took a convex optimization paper with a clean open problem in it and asked gpt-5-pro to work on it. It proved a better bound than what is in the paper, and I checked the proof it's correct.…
❤23🔥7👍5🤡5
Михаил Бронштейн и ко написали практически учебник про геометрическое глубокое обучение. Выглядит очень достойно. Вдруг вы хотели почитать что-то по матчасти на выходных или в остаток лета.
Mathematical Foundations of Geometric Deep Learning
Authors: Haitz Sáez de Ocáriz Borde and Michael Bronstein
Paper: https://arxiv.org/abs/2508.02723
Русское саммари тут: https://yangx.top/gonzo_ML_podcasts/714
Английское тут: https://arxiviq.substack.com/p/mathematical-foundations-of-geometric
Mathematical Foundations of Geometric Deep Learning
Authors: Haitz Sáez de Ocáriz Borde and Michael Bronstein
Paper: https://arxiv.org/abs/2508.02723
Русское саммари тут: https://yangx.top/gonzo_ML_podcasts/714
Английское тут: https://arxiviq.substack.com/p/mathematical-foundations-of-geometric
arXiv.org
Mathematical Foundations of Geometric Deep Learning
We review the key mathematical concepts necessary for studying Geometric Deep Learning.
👍19❤5🔥2
Недавно упоминали термодинамические вычисления, и тут образовалась подборка авторазборов статей по теме:
* Thermodynamic Natural Gradient Descent, также может быть интересно Covariant Gradient Descent, который не про термодинамические, а больше про геометрию пространства, но всё равно.
* Scalable Thermodynamic Second-order Optimization про термодинамический K-FAC
* Solving the compute crisis with physics-based ASICs про ребрендинг аналоговых компьютеров и термодинамические вычислители в частности.
* Thermodynamic Natural Gradient Descent, также может быть интересно Covariant Gradient Descent, который не про термодинамические, а больше про геометрию пространства, но всё равно.
* Scalable Thermodynamic Second-order Optimization про термодинамический K-FAC
* Solving the compute crisis with physics-based ASICs про ребрендинг аналоговых компьютеров и термодинамические вычислители в частности.
Telegram
gonzo-обзоры ML статей
В свежем IEEE Spectrum статья про термодинамические вычисления и компанию Normal Computing (писали про них тут и ранее).
Интересная цитата:
This results in the Normal Computing cofounders having a slightly different vision. They imagine a world where different…
Интересная цитата:
This results in the Normal Computing cofounders having a slightly different vision. They imagine a world where different…
1🔥9🤔3
Forwarded from КПД
FP4 All the Way: Fully Quantized Training of LLMs
[Статья][Анонимный не анонимный репозитрий]
📘 Введение
Висело оно у меня давно в бэклоге, но в кулуарах напомнили.
С увеличением затрат на обучение больших языковых моделей, когда оно стало переваливать за миллионы GPU часов, все более остро стоит вопрос о том как это делать эффективно.
Как известно, для параметров и активаций моделей не требуется представление вещественных чисел высокой точности, чтобы работать приемлемо. Обучение в половинной точности уже давно стало стандартом, да и в FP8 народ вполне себе успешно обучает. Следующая очевидная цель - обучение в FP4, тем более, что последнее поколение от “зеленых” c блмным названием (Blackwell) имеет его поддержку на уровне архитектуры.
И в ряде работ, вышедших в этом году (Training LLMs with MXFP4, Quartet), включая разбираемую, были предложены техники по стабилизации обучения в FP4.
[Статья][Анонимный не анонимный репозитрий]
📘 Введение
Висело оно у меня давно в бэклоге, но в кулуарах напомнили.
С увеличением затрат на обучение больших языковых моделей, когда оно стало переваливать за миллионы GPU часов, все более остро стоит вопрос о том как это делать эффективно.
Как известно, для параметров и активаций моделей не требуется представление вещественных чисел высокой точности, чтобы работать приемлемо. Обучение в половинной точности уже давно стало стандартом, да и в FP8 народ вполне себе успешно обучает. Следующая очевидная цель - обучение в FP4, тем более, что последнее поколение от “зеленых” c блмным названием (Blackwell) имеет его поддержку на уровне архитектуры.
И в ряде работ, вышедших в этом году (Training LLMs with MXFP4, Quartet), включая разбираемую, были предложены техники по стабилизации обучения в FP4.
👍4❤2
Forwarded from КПД
🔬 Метод
Форматы FP4
Первым делом исследуют конфигурации форматов FP4. Напомню, что MXFP4 квантизует веса группами по 32 и квантизует скейлы в E8M0, а NVFP4 группами по 16 и скейлы в E4M3. Авторы фиксируют размер группы 16 и перебирают варианты квантизации скейлов от E1M6 до E8M0. Обучают Llama-like LLM на 350M параметров и замечают, что при E4M3/E3M4 скейлах достигается минимальный лосс (при фиксированном числе итераций). Из всех конфигураций расходится только E1M6 (c cамым узким диапазоном). В дальнейшем везде используют E4M3. Блоки размера 16 выбирают так как при больших лосс сходится хуже, а меньшие уже не дают профита.
Стохастическая квантизация
Квантизовать можно к ближайшему значению, а можно стохастически - вверх или вниз, с вероятностью, зависящей от расстояния до соседа.
Ребята из интела перебирают разные варианты детерминистического и стохастического квантования для весов/градиентов и активаций и получают, что лучше всего сходится вариант с детерминированной квантизацией весов и активаций на прямом проходе, и стохастической для градиентов и активаций на обратном проходе, Роль стохастики в квантизации - уменьшить bias, возникающий из-за округления тензоров.
В ходе оптимизации сигнал от градиента постепенно убывает и с какого-то момента перекрывается шумом оптимизации. Не мудрствуя лукаво, авторы предлагают обучать небольшое время с градиентами в более высокой (bf16) точности (на прямом проходе все еще FP4). И это позволяет сойтись до уровня half-precision обучения за то же суммарное число итераций.
🧪Эксперименты
Обучают семейство моделей архитектуры Llama-2 на датасете Красная Пижама. В главном эксперименте учат модель размера 7B на 1Т токенах причем не абы на чем, а на ускорителях Intel Gaudi2 (сыр 🧀 тут ни при чем, это в честь архитектора)
Обучение идет без спайков, лосс отстает несколько от bf16 бейзлайна, но нагоняет после короткой фазы с более точными градиентами (QAF).
0-шоты без QAF чуть хуже безйлайна, с QAF - такие же примерно. Впрочем, все равно оно лишь чуть лучше рандома)
💡 Выводы
Выглядит как очередной аргумент перейти на обучение LLM в FP4. Сам по себе метод выглядит не шибко изощренно, хотя необходимость QAF для лучших результатов несколько противоречит названию статьи (надо было назвать FP4 Most the way). Quartet в этом отношении по изящнее. Интересно, кто из крупных игроков выложит первый техрепорт про полное обучение серьезной модели в FP4? Ставлю либо на Нвидию, либо на Moonshot.
Форматы FP4
Первым делом исследуют конфигурации форматов FP4. Напомню, что MXFP4 квантизует веса группами по 32 и квантизует скейлы в E8M0, а NVFP4 группами по 16 и скейлы в E4M3. Авторы фиксируют размер группы 16 и перебирают варианты квантизации скейлов от E1M6 до E8M0. Обучают Llama-like LLM на 350M параметров и замечают, что при E4M3/E3M4 скейлах достигается минимальный лосс (при фиксированном числе итераций). Из всех конфигураций расходится только E1M6 (c cамым узким диапазоном). В дальнейшем везде используют E4M3. Блоки размера 16 выбирают так как при больших лосс сходится хуже, а меньшие уже не дают профита.
Стохастическая квантизация
Квантизовать можно к ближайшему значению, а можно стохастически - вверх или вниз, с вероятностью, зависящей от расстояния до соседа.
Ребята из интела перебирают разные варианты детерминистического и стохастического квантования для весов/градиентов и активаций и получают, что лучше всего сходится вариант с детерминированной квантизацией весов и активаций на прямом проходе, и стохастической для градиентов и активаций на обратном проходе, Роль стохастики в квантизации - уменьшить bias, возникающий из-за округления тензоров.
В ходе оптимизации сигнал от градиента постепенно убывает и с какого-то момента перекрывается шумом оптимизации. Не мудрствуя лукаво, авторы предлагают обучать небольшое время с градиентами в более высокой (bf16) точности (на прямом проходе все еще FP4). И это позволяет сойтись до уровня half-precision обучения за то же суммарное число итераций.
🧪Эксперименты
Обучают семейство моделей архитектуры Llama-2 на датасете Красная Пижама. В главном эксперименте учат модель размера 7B на 1Т токенах причем не абы на чем, а на ускорителях Intel Gaudi2 (сыр 🧀 тут ни при чем, это в честь архитектора)
Обучение идет без спайков, лосс отстает несколько от bf16 бейзлайна, но нагоняет после короткой фазы с более точными градиентами (QAF).
0-шоты без QAF чуть хуже безйлайна, с QAF - такие же примерно. Впрочем, все равно оно лишь чуть лучше рандома)
💡 Выводы
Выглядит как очередной аргумент перейти на обучение LLM в FP4. Сам по себе метод выглядит не шибко изощренно, хотя необходимость QAF для лучших результатов несколько противоречит названию статьи (надо было назвать FP4 Most the way). Quartet в этом отношении по изящнее. Интересно, кто из крупных игроков выложит первый техрепорт про полное обучение серьезной модели в FP4? Ставлю либо на Нвидию, либо на Moonshot.
❤11🔥7👍5
Это выглядит просто бомбически!
Можно ли сделать такой test-time scaling, чтобы вычислений стало меньше (чем у лучших имеющихся подходов), а точность при этом выросла? Оказывается можно. Без обучения, просто хорошими и простыми новыми метриками для взвешивания разных трейсов и отбора наиболее перспективных.
Имеем 99.9% на AIME 2025 с открытой моделью.
https://yangx.top/gonzo_ML_podcasts/759
Можно ли сделать такой test-time scaling, чтобы вычислений стало меньше (чем у лучших имеющихся подходов), а точность при этом выросла? Оказывается можно. Без обучения, просто хорошими и простыми новыми метриками для взвешивания разных трейсов и отбора наиболее перспективных.
Имеем 99.9% на AIME 2025 с открытой моделью.
https://yangx.top/gonzo_ML_podcasts/759
Telegram
gonzo_ML_podcasts
DeepConf: Масштабируем ризонинг LLM с помощью уверенности, а не только вычислений
Title: Deep Think with Confidence
Authors: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
Paper: https://arxiv.org/abs/2508.15260
Code: https://jiaweizzhao.github.io/deepconf…
Title: Deep Think with Confidence
Authors: Yichao Fu, Xuewei Wang, Yuandong Tian, Jiawei Zhao
Paper: https://arxiv.org/abs/2508.15260
Code: https://jiaweizzhao.github.io/deepconf…
1👍15❤3🔥1
Вот вам ещё воскресное, про книги.
Прочитал за лето пару книжек про нейтрино и людей вокруг него.
Книга Фрэнка Клоуза более-менее классическая научпоп книга, построенная вокруг истории нескольких людей, в первую очередь Рэя Дэвиса, но также и Ферми, Понтекорво, и не очень многих других. В прошлом году также читал другую книгу Клоуза, про антиматерию, он хорошо пишет, даёт нормальную базу для первого знакомства.
Начинается с открытия радиоактивности, необходимости соблюдения закона сохранения энергии при бета распаде и придумывания Паули новой частицы. Что интересно, в тот момент ещё даже существование нейтрона было не доказано, и Паули по факту придумал и нейтрон, и нейтрино (название пришло уже от Ферми), и не сразу стало ясно, что это разные частицы. Когда стало ясно, Паули считал, что обнаружить нейтрино ("нейтрончик") не удастся.
Лет через пятнадцать Бруно Понтекорво (в последующем сбежавший в Советский Союз, но в конце жизни жалевший об этом) предложил способ как таки можно его обнаружить, если работать на больших числах (на сильном потоке и с большим количеством вещества в детекторе). В итоге в середине 50-х сумели таки обнаружить (анти)нейтрино от ядерных реакторов. Потом был челлендж поймать солнечные нейтрино, а когда поймали, понять почему их так мало (примерно в три раза меньше ожидаемого) и всё ли ок с солнцем и нашими моделями, и нет ли косяков в экспериментах (а там надо было детектировать считанные атомы на тонны вещества). И после долгих пересчётов и экспериментов понять наконец, что это не ошибки, и есть три разных типа нейтрино и они ещё и осциллируют (превращаются друг в друга). Это финально подтвердили только в начале 2000-х. Вот большая часть книги про эти поиски и эксперименты, включая также детекцию нейтрино от сверхновой в соседней галактике.
Вторая книга совсем иная. Она конкретно про Этторе Майорану и также сильно про нейтрино, которое, возможно, является майорановской частицей -- когда она же одновременно и своя античастица.
История Майораны -- большая загадка. Он был явно очень талантлив, не менее (и вероятно более) чем Ферми. Он входил в изначальный коллектив итальянского института и в группу Ферми, откуда вышло много Нобелевских лауреатов по ядерной физике. Туда же потом пришёл и Понтекорво, то есть реально центр экспертизы в нейтрино родился там.
Майорана почти не публиковался (ему было неинтересно), часть своих работ он уничтожал после того как они были готовы, часть его бумаг была потеряна. Однажды он просто исчез, и до сих пор есть множество теорий, что с ним могло произойти, от суицида, через бегство в монастырь или в Аргентину (он снял все свои деньги перед исчезновением), до похищения какой-нибудь разведкой (например, СССР, потому что он мог быть близок к созданию атомной бомбы) или даже инопланетянами. Или ещё сбежал в четвёртое измерение, и его могут видеть только кошки 🙀 В общем ответа нет, а спекуляций много.
Интересно, кстати, что та самая группа была очень близка к открытию ядерного распада и цепной реакции ещё в 1934-м (уже в фашистской Италии), когда они систематически обстреливали нейтронами всю таблицу Менделеева, но результат для урана интерпретировали неправильно (и проигнорировали правильную обратную связь от Иды Ноддак). В итоге это открытие случилось уже в 1939-м. Мир мог бы быть совсем другим, не факт что лучше.
В части нейтрино эта книга описывает вещи за пределами книги Клоуза. Здесь есть про двойной безнейтринный бета распад (он был бы подтверждением майорановости нейтрино), здесь мне кажется получше передана суть осцилляций. Книга сильно более неформальная, чем первая, и в целом выступает неплохим историческим взглядом в ту эпоху и конкретно в жизнь Италии (и немного Германии). И безусловно в жизнь самого Майораны. Короче, зачётная, редкого жанра.
#books
Прочитал за лето пару книжек про нейтрино и людей вокруг него.
Книга Фрэнка Клоуза более-менее классическая научпоп книга, построенная вокруг истории нескольких людей, в первую очередь Рэя Дэвиса, но также и Ферми, Понтекорво, и не очень многих других. В прошлом году также читал другую книгу Клоуза, про антиматерию, он хорошо пишет, даёт нормальную базу для первого знакомства.
Начинается с открытия радиоактивности, необходимости соблюдения закона сохранения энергии при бета распаде и придумывания Паули новой частицы. Что интересно, в тот момент ещё даже существование нейтрона было не доказано, и Паули по факту придумал и нейтрон, и нейтрино (название пришло уже от Ферми), и не сразу стало ясно, что это разные частицы. Когда стало ясно, Паули считал, что обнаружить нейтрино ("нейтрончик") не удастся.
Лет через пятнадцать Бруно Понтекорво (в последующем сбежавший в Советский Союз, но в конце жизни жалевший об этом) предложил способ как таки можно его обнаружить, если работать на больших числах (на сильном потоке и с большим количеством вещества в детекторе). В итоге в середине 50-х сумели таки обнаружить (анти)нейтрино от ядерных реакторов. Потом был челлендж поймать солнечные нейтрино, а когда поймали, понять почему их так мало (примерно в три раза меньше ожидаемого) и всё ли ок с солнцем и нашими моделями, и нет ли косяков в экспериментах (а там надо было детектировать считанные атомы на тонны вещества). И после долгих пересчётов и экспериментов понять наконец, что это не ошибки, и есть три разных типа нейтрино и они ещё и осциллируют (превращаются друг в друга). Это финально подтвердили только в начале 2000-х. Вот большая часть книги про эти поиски и эксперименты, включая также детекцию нейтрино от сверхновой в соседней галактике.
Вторая книга совсем иная. Она конкретно про Этторе Майорану и также сильно про нейтрино, которое, возможно, является майорановской частицей -- когда она же одновременно и своя античастица.
История Майораны -- большая загадка. Он был явно очень талантлив, не менее (и вероятно более) чем Ферми. Он входил в изначальный коллектив итальянского института и в группу Ферми, откуда вышло много Нобелевских лауреатов по ядерной физике. Туда же потом пришёл и Понтекорво, то есть реально центр экспертизы в нейтрино родился там.
Майорана почти не публиковался (ему было неинтересно), часть своих работ он уничтожал после того как они были готовы, часть его бумаг была потеряна. Однажды он просто исчез, и до сих пор есть множество теорий, что с ним могло произойти, от суицида, через бегство в монастырь или в Аргентину (он снял все свои деньги перед исчезновением), до похищения какой-нибудь разведкой (например, СССР, потому что он мог быть близок к созданию атомной бомбы) или даже инопланетянами. Или ещё сбежал в четвёртое измерение, и его могут видеть только кошки 🙀 В общем ответа нет, а спекуляций много.
Интересно, кстати, что та самая группа была очень близка к открытию ядерного распада и цепной реакции ещё в 1934-м (уже в фашистской Италии), когда они систематически обстреливали нейтронами всю таблицу Менделеева, но результат для урана интерпретировали неправильно (и проигнорировали правильную обратную связь от Иды Ноддак). В итоге это открытие случилось уже в 1939-м. Мир мог бы быть совсем другим, не факт что лучше.
В части нейтрино эта книга описывает вещи за пределами книги Клоуза. Здесь есть про двойной безнейтринный бета распад (он был бы подтверждением майорановости нейтрино), здесь мне кажется получше передана суть осцилляций. Книга сильно более неформальная, чем первая, и в целом выступает неплохим историческим взглядом в ту эпоху и конкретно в жизнь Италии (и немного Германии). И безусловно в жизнь самого Майораны. Короче, зачётная, редкого жанра.
#books
👍33❤15🙏1
Simons Foundation Launches Collaboration on the Physics of Learning and Neural Computation
https://www.simonsfoundation.org/2025/08/18/simons-foundation-launches-collaboration-on-the-physics-of-learning-and-neural-computation/
https://www.simonsfoundation.org/2025/08/18/simons-foundation-launches-collaboration-on-the-physics-of-learning-and-neural-computation/
Simons Foundation
Simons Foundation Launches Collaboration on the Physics of Learning and Neural Computation
Simons Foundation Launches Collaboration on the Physics of Learning and Neural Computation on Simons Foundation
🔥5❤3
Что-то интересное про world models, надо внимательно разбираться:
https://yangx.top/gonzo_ML_podcasts/772
https://yangx.top/gonzo_ML_podcasts/772
Telegram
gonzo_ML_podcasts
Переосмысление мировых моделей: от предсказания пикселей к целенаправленным рассуждениям
Critiques of World Models
Eric Xing, Mingkai Deng, Jinyu Hou, Zhiting Hu
Статья: https://arxiv.org/abs/2507.05169
Ревью: https://arxiviq.substack.com/p/critiques-of…
Critiques of World Models
Eric Xing, Mingkai Deng, Jinyu Hou, Zhiting Hu
Статья: https://arxiv.org/abs/2507.05169
Ревью: https://arxiviq.substack.com/p/critiques-of…
👍8
Интересный пост от Анимы Анандкумар:
It is interesting that the new DeepSeek Al v3.1 is trained using the UE8M0 FP8 scale data format, which is nothing but the logarithmic number system (LNS), meaning it has only exponent and no mantissa. Our multiplicative weights update (Madam) for training in that format was done several years ago while at NVIDIA It yields maximum hardware efficiency with no accuracy loss https://arxiv.org/abs/2106.13914
Logarithmic number system achieves a higher computational efficiency by transforming expensive multiplication operations in the network layers to inexpensive additions in their logarithmic representations. In addition, it attains a wide dynamic range and can provide a good approximation. Also, logarithmic number system is biologically inspired, and there is evidence that our brains use such a format for storage.
However, using standard SGD or Adam optimization for training in logarithmic format is challenging, and requires intermediate updates and optimization states to be stored in full precision (FP32). To overcome this, we proposed Multiple Weights update (Madam) that instead updates directly in the logarithmic format and leads to good training outcomes.
Our LNS-Madam when compared to training in FP32 and FP8 formats, LNS-Madam reduces the energy consumption by over 90% and 55%, respectively, while maintaining accuracy.
It is interesting that the new DeepSeek Al v3.1 is trained using the UE8M0 FP8 scale data format, which is nothing but the logarithmic number system (LNS), meaning it has only exponent and no mantissa. Our multiplicative weights update (Madam) for training in that format was done several years ago while at NVIDIA It yields maximum hardware efficiency with no accuracy loss https://arxiv.org/abs/2106.13914
Logarithmic number system achieves a higher computational efficiency by transforming expensive multiplication operations in the network layers to inexpensive additions in their logarithmic representations. In addition, it attains a wide dynamic range and can provide a good approximation. Also, logarithmic number system is biologically inspired, and there is evidence that our brains use such a format for storage.
However, using standard SGD or Adam optimization for training in logarithmic format is challenging, and requires intermediate updates and optimization states to be stored in full precision (FP32). To overcome this, we proposed Multiple Weights update (Madam) that instead updates directly in the logarithmic format and leads to good training outcomes.
Our LNS-Madam when compared to training in FP32 and FP8 formats, LNS-Madam reduces the energy consumption by over 90% and 55%, respectively, while maintaining accuracy.
1❤🔥12👍7❤2