Tversky Neural Networks: Psychologically Plausible Deep Learning with Differentiable Tversky Similarity
Moussa Koulako Bala Doumbouya, Dan Jurafsky, Christopher D. Manning
Статья: https://arxiv.org/abs/2506.11035
Раз в год обязательно появляется какая-то интересная архитектура, где меняют какой-то фундаментальный блок. Так было с KAN в прошлом году (https://yangx.top/gonzo_ML/2598), где изменили параметризацию функции активации нейрона (непонятно правда какой выхлоп через год -- работ-развитий вроде много появилось, но KAN’ы нигде пока никого не вытеснили). Так есть и в текущей работе, где изменяют функцию определения близости, с классического скалярного произведения как в трансформере (или косинусной близости, что примерно то же) на более хитрую несимметричную функцию имени Амоса Тверски. Журафски с Маннингом в соавторах (а в KAN’ах был соавтором Тегмарк), так что не совсем левые люди.
В чём идея?
Современные архитектуры глубокого обучения, от CNN до трансформеров, строятся на фундаментальном, но часто упускаемом из виду предположении: сходство между понятиями можно измерить геометрически с помощью таких функций, как скалярное произведение или косинусное сходство. Хотя такой подход удобен вычислительно, в когнитивной психологии давно известно, что эта геометрическая модель плохо отражает человеческие суждения о сходстве. Как отметил Амос Тверски в своей знаковой работе 1977 года (https://psycnet.apa.org/doi/10.1037/0033-295X.84.4.327), человеческое восприятие сходства часто асимметрично — мы говорим, что сын похож на отца больше, чем отец на сына. Эта асимметрия нарушает метрические свойства, присущие геометрическим моделям.
Тверски предложил альтернативу: модель сопоставления признаков, где сходство является функцией общих и отличительных черт. Несмотря на свою психологическую правдоподобность, эта модель опиралась на дискретные операции над множествами, что делало её несовместимой с дифференцируемой, основанной на градиентах оптимизацией, которая лежит в основе современного глубокого обучения. Авторам этой статьи удалось изящно преодолеть этот разрыв.
Ключевое нововведение — это дифференцируемая параметризация сходства по Тверски. Авторы предлагают двойное представление, где объекты являются одновременно и векторами (как обычно, R^d), и множествами признаков (это новое). Признак (из заданного конечного множества Ω) считается «присутствующим» в объекте, если скалярное произведение вектора объекта и вектора признака положительно. Эта конструкция позволяет переформулировать традиционно дискретные операции пересечения и разности множеств в виде дифференцируемых функций.
Функция сходства Тверски определяется как: S(a, b) = θf(A ∩ B) − αf(A − B) − βf(B − A), где A и B это множества признаков объектов a и b, а {θ, α, β} -- обучаемые параметры. В этой формуле первое слагаемое отвечает за общие признаки, второе за отличительных признаки объекта a, и третье за отличительные признаки объекта b.
Для признаков определены следующие функции:
Заметность (salience) или выраженность фич объекта А, является суммой положительных скалярных произведений для присутствующих у объекта признаков. Менее заметный объект (например, сын) более похож на более заметный объект (отец), чем наоборот.
Пересечение (общие признаки) объектов A и B определяется через функцию Ψ, агрегирующую присутствующие у обоих объектов признаки. В качестве Ψ пробовали min, max, product, mean, gmean, softmin.
Разность (признаки имеющиеся у первого объекта, но отсутствующие у второго) определена двумя способами. Первый,
Далее определяются нейросети Тверски на базе двух новых строительных блоков:
* Tversky Similarity Layer, аналог функций метрической близости типа скалярного произведения или косинусной близости. Определяет похожесть объектов a∈R^d и b∈R^d через вышеупомянутую функцию с {θ, α, β}. Возвращает скаляр.
Moussa Koulako Bala Doumbouya, Dan Jurafsky, Christopher D. Manning
Статья: https://arxiv.org/abs/2506.11035
Раз в год обязательно появляется какая-то интересная архитектура, где меняют какой-то фундаментальный блок. Так было с KAN в прошлом году (https://yangx.top/gonzo_ML/2598), где изменили параметризацию функции активации нейрона (непонятно правда какой выхлоп через год -- работ-развитий вроде много появилось, но KAN’ы нигде пока никого не вытеснили). Так есть и в текущей работе, где изменяют функцию определения близости, с классического скалярного произведения как в трансформере (или косинусной близости, что примерно то же) на более хитрую несимметричную функцию имени Амоса Тверски. Журафски с Маннингом в соавторах (а в KAN’ах был соавтором Тегмарк), так что не совсем левые люди.
В чём идея?
Современные архитектуры глубокого обучения, от CNN до трансформеров, строятся на фундаментальном, но часто упускаемом из виду предположении: сходство между понятиями можно измерить геометрически с помощью таких функций, как скалярное произведение или косинусное сходство. Хотя такой подход удобен вычислительно, в когнитивной психологии давно известно, что эта геометрическая модель плохо отражает человеческие суждения о сходстве. Как отметил Амос Тверски в своей знаковой работе 1977 года (https://psycnet.apa.org/doi/10.1037/0033-295X.84.4.327), человеческое восприятие сходства часто асимметрично — мы говорим, что сын похож на отца больше, чем отец на сына. Эта асимметрия нарушает метрические свойства, присущие геометрическим моделям.
Тверски предложил альтернативу: модель сопоставления признаков, где сходство является функцией общих и отличительных черт. Несмотря на свою психологическую правдоподобность, эта модель опиралась на дискретные операции над множествами, что делало её несовместимой с дифференцируемой, основанной на градиентах оптимизацией, которая лежит в основе современного глубокого обучения. Авторам этой статьи удалось изящно преодолеть этот разрыв.
Ключевое нововведение — это дифференцируемая параметризация сходства по Тверски. Авторы предлагают двойное представление, где объекты являются одновременно и векторами (как обычно, R^d), и множествами признаков (это новое). Признак (из заданного конечного множества Ω) считается «присутствующим» в объекте, если скалярное произведение вектора объекта и вектора признака положительно. Эта конструкция позволяет переформулировать традиционно дискретные операции пересечения и разности множеств в виде дифференцируемых функций.
Функция сходства Тверски определяется как: S(a, b) = θf(A ∩ B) − αf(A − B) − βf(B − A), где A и B это множества признаков объектов a и b, а {θ, α, β} -- обучаемые параметры. В этой формуле первое слагаемое отвечает за общие признаки, второе за отличительных признаки объекта a, и третье за отличительные признаки объекта b.
Для признаков определены следующие функции:
Заметность (salience) или выраженность фич объекта А, является суммой положительных скалярных произведений для присутствующих у объекта признаков. Менее заметный объект (например, сын) более похож на более заметный объект (отец), чем наоборот.
Пересечение (общие признаки) объектов A и B определяется через функцию Ψ, агрегирующую присутствующие у обоих объектов признаки. В качестве Ψ пробовали min, max, product, mean, gmean, softmin.
Разность (признаки имеющиеся у первого объекта, но отсутствующие у второго) определена двумя способами. Первый,
ignorematch
, учитывает только признаки, присутствующие в A, но не в B. Другой метод, subtractmatch
, также учитывает признаки, присутствующие в обоих объектах, но более выраженные в A.Далее определяются нейросети Тверски на базе двух новых строительных блоков:
* Tversky Similarity Layer, аналог функций метрической близости типа скалярного произведения или косинусной близости. Определяет похожесть объектов a∈R^d и b∈R^d через вышеупомянутую функцию с {θ, α, β}. Возвращает скаляр.
🔥26👍13❤9🤔2❤🔥1💯1
* Tversky Projection Layer, аналог полносвязного слоя. Нелинейная проекция вектора a∈R^d, вычисляющая похожесть входа a на каждый из p прототипов, каждый их которых R^d, так что на выходе получается вектор R^p. По сути он проецирует входной вектор на набор выученных «прототипных» векторов Π. Однако вместо простого скалярного произведения он использует более сложную и выразительную нелинейную функцию сходства Тверски в Tversky Similarity Layer.
Итого в нейросети Тверски обучаемые параметры включают:
* векторы прототипов, Π
* векторы признаков, Ω,
* веса α, β, θ
Π и Ω можно шарить между разными слоями.
Этот новый слой по своей природе более мощный. Авторы конструктивно показывают, что один-единственный проекционный слой Тверски может смоделировать нелинейную функцию XOR, что невозможно для одного линейного слоя, и это демонстрирует его повышенную выразительную способность.
Здесь правда есть тонкость. Пример с XOR, где на входе вектор из двух чисел, между которыми и делается XOR, использует 11 обучаемых параметров. Ну ок, один классический нейрон не может сделать XOR, но простая сеть с одним скрытым слоем с двумя нейронами там и одним нейроном на выходе (https://datascience.stackexchange.com/a/11590) уже может, а в ней всего 6 обучаемых весов -- по два на каждый нейрон, bias вроде как не нужен. Ну даже если с bias, то всё равно 9 весов, меньше чем 11. Так что так себе преимущество, я тоже могу это всё в один нейрон нового типа зашить и сказать, что оно более мощное. И обучаемые вектора прототипов и признаков в сети Тверски должны ещё выучиться, не при каждой инициализации в экспериментах это удавалось. И ещё эти гиперпараметры (количество векторов) надо как-то выбирать.
Замена стандартных линейных слоёв на проекционные слои Тверски приводит к заметным улучшениям в различных областях:
* Распознавание изображений: При адаптации замороженной ResNet-50 для задачи классификации использование на выходе проекционного слоя Тверски вместо линейного (=TverskyResNet50) привело к улучшению точности с 36,0% до 44,9% (NABirds) и с 57.4% до 62.3% (MNIST). На незамороженной сети не так заметно, при обучении с нуля чуть заметнее.
* Языковое моделирование: При обучении модели GPT-2 small с нуля на датасете Penn Treebank с общими (tied) прототипами замена линейных слоёв на слои Тверски (=TverskyGPT-2) одновременно снизила перплексию на 7,5% и сократила количество параметров на 34,8%.
Векторы прототипов и фич везде инициализировались рандомно. В качестве редукций в пересечениях и разностях использовались product и ignorematch.
Ещё из полезных свойств у модели есть интерпретируемость. Большинство современных методов XAI, таких как LIME или Grad-CAM, являются post-hoc, то есть они пытаются объяснить принятие решений моделью извне, после того как она была обучена как чёрный ящик. В отличие от них, фреймворк Тверски интерпретируем by design. Его фундаментальные операции основаны на психологически интуитивных понятиях общих и отличительных признаков, что обеспечивает встроенный, прозрачный язык для объяснения рассуждений модели.
Авторы представляют новую технику визуализации в пространстве исходных данных, которая позволяет визуализировать выученные прототипы и признаки непосредственно во входном пространстве. На примере MNIST показано, что слой Тверски выучивает прототипы и признаки, которые соответствуют распознаваемым, интерпретируемым человеком штрихам и кривым рукописных цифр. В отличие от этого, базовый линейный слой выучивает непрозрачные, неинтерпретируемые текстурные паттерны. Это позволяет получить принципиальное объяснение решений модели в терминах общих и отличительных признаков.
Авторы даже обнаружили, что обученные модели последовательно выучивают параметры, при которых α > β. Это означает, что отличительным признакам входа («сына») придаётся больший вес, чем отличительным признакам прототипа («отца»). Это является прямым подтверждением исходной гипотезы Тверски о значимости (salience) и показывает, что модель не просто хорошо работает, но и обучается психологически состоятельным образом.
Итого в нейросети Тверски обучаемые параметры включают:
* векторы прототипов, Π
* векторы признаков, Ω,
* веса α, β, θ
Π и Ω можно шарить между разными слоями.
Этот новый слой по своей природе более мощный. Авторы конструктивно показывают, что один-единственный проекционный слой Тверски может смоделировать нелинейную функцию XOR, что невозможно для одного линейного слоя, и это демонстрирует его повышенную выразительную способность.
Здесь правда есть тонкость. Пример с XOR, где на входе вектор из двух чисел, между которыми и делается XOR, использует 11 обучаемых параметров. Ну ок, один классический нейрон не может сделать XOR, но простая сеть с одним скрытым слоем с двумя нейронами там и одним нейроном на выходе (https://datascience.stackexchange.com/a/11590) уже может, а в ней всего 6 обучаемых весов -- по два на каждый нейрон, bias вроде как не нужен. Ну даже если с bias, то всё равно 9 весов, меньше чем 11. Так что так себе преимущество, я тоже могу это всё в один нейрон нового типа зашить и сказать, что оно более мощное. И обучаемые вектора прототипов и признаков в сети Тверски должны ещё выучиться, не при каждой инициализации в экспериментах это удавалось. И ещё эти гиперпараметры (количество векторов) надо как-то выбирать.
Замена стандартных линейных слоёв на проекционные слои Тверски приводит к заметным улучшениям в различных областях:
* Распознавание изображений: При адаптации замороженной ResNet-50 для задачи классификации использование на выходе проекционного слоя Тверски вместо линейного (=TverskyResNet50) привело к улучшению точности с 36,0% до 44,9% (NABirds) и с 57.4% до 62.3% (MNIST). На незамороженной сети не так заметно, при обучении с нуля чуть заметнее.
* Языковое моделирование: При обучении модели GPT-2 small с нуля на датасете Penn Treebank с общими (tied) прототипами замена линейных слоёв на слои Тверски (=TverskyGPT-2) одновременно снизила перплексию на 7,5% и сократила количество параметров на 34,8%.
Векторы прототипов и фич везде инициализировались рандомно. В качестве редукций в пересечениях и разностях использовались product и ignorematch.
Ещё из полезных свойств у модели есть интерпретируемость. Большинство современных методов XAI, таких как LIME или Grad-CAM, являются post-hoc, то есть они пытаются объяснить принятие решений моделью извне, после того как она была обучена как чёрный ящик. В отличие от них, фреймворк Тверски интерпретируем by design. Его фундаментальные операции основаны на психологически интуитивных понятиях общих и отличительных признаков, что обеспечивает встроенный, прозрачный язык для объяснения рассуждений модели.
Авторы представляют новую технику визуализации в пространстве исходных данных, которая позволяет визуализировать выученные прототипы и признаки непосредственно во входном пространстве. На примере MNIST показано, что слой Тверски выучивает прототипы и признаки, которые соответствуют распознаваемым, интерпретируемым человеком штрихам и кривым рукописных цифр. В отличие от этого, базовый линейный слой выучивает непрозрачные, неинтерпретируемые текстурные паттерны. Это позволяет получить принципиальное объяснение решений модели в терминах общих и отличительных признаков.
Авторы даже обнаружили, что обученные модели последовательно выучивают параметры, при которых α > β. Это означает, что отличительным признакам входа («сына») придаётся больший вес, чем отличительным признакам прототипа («отца»). Это является прямым подтверждением исходной гипотезы Тверски о значимости (salience) и показывает, что модель не просто хорошо работает, но и обучается психологически состоятельным образом.
🔥34👍7❤3❤🔥1
Прикольная работа в общем. Просится распространение на трансформер и механизм внимания. В работе только к блокам projection применяли.
arXiv.org
Tversky Neural Networks: Psychologically Plausible Deep Learning...
Work in psychology has highlighted that the geometric model of similarity standard in deep learning is not psychologically plausible because its metric properties such as symmetry do not align...
1👍26🙏4❤1🥱1
Прикольный доклад сегодня на AGI-25. В контексте свежих речей Самы про то, что AGI уже плохой концепт.
Some people who have been promising the Moon are now saying that the Moon is maybe not the best concept ever.
https://www.youtube.com/live/eCUtGU4qKVY?si=rI1Pi51riiuLAP7v&t=25917
(начало тут)
Some people who have been promising the Moon are now saying that the Moon is maybe not the best concept ever.
https://www.youtube.com/live/eCUtGU4qKVY?si=rI1Pi51riiuLAP7v&t=25917
(начало тут)
CNBC
Sam Altman now says AGI, or human-level AI, is 'not a super useful term’ — and he's not alone
Computer science experts say it's better to focus on the more specialized use cases of AI.
😁57👍4❤1😭1
Кстати, прям щас начался кейноут Йоши Баха
https://www.youtube.com/live/fdftA37yZJw?si=KDamycsVMbu7qjax
https://www.youtube.com/live/fdftA37yZJw?si=KDamycsVMbu7qjax
YouTube
AGI-25 Conference | Day 3 | Keynotes and Paper Presentations
Welcome to the final day of the 18th Annual AGI Conference taking place at Reykjavík University, Iceland.
Experience keynotes from Joscha Bach, Anna Ciaunica, Michael Levin and Hananel Hazan, a panel discussion featuring Josef Urban, Zar Goertzel, Nil Geisweiller…
Experience keynotes from Joscha Bach, Anna Ciaunica, Michael Levin and Hananel Hazan, a panel discussion featuring Josef Urban, Zar Goertzel, Nil Geisweiller…
🔥12👍6
Давайте я вам ещё чего-нибудь прекрасного субботнего дам.
Вот например Gerard 't Hooft, лауреат Нобелевской премии и Breakthrough Prize.
Давно топит за то, что квантовая механика идёт не туда и имеет на эту тему свои неортодоксальные взгляды (https://arxiv.org/abs/2104.03179). Как я понимаю, они про то, что статистические описания они от бедности, потому что мы не можем заглянуть глубоко в суть до тех уровней энергии и масштабов времени, где всё это описывается более детерминированным способом, а текущие математические конструкции (типа действительных или комплексных чисел) уводят наш взгляд от сути. К действительным числам я тоже отношусь с большим подозрением :)
У т' Хоофта есть прям фундаментальная работа про как всё может быть устроено, и она (о ля ля!) про клеточные автоматы!
The Cellular Automaton Interpretation of Quantum Mechanics
https://link.springer.com/book/10.1007/978-3-319-41285-6
Книга доступна для скачивания бесплатно. Любителям Конрада Цузе, Вольфрама и прочих может понравиться.
Нашёл вот ещё обзор у Сабины Хоссенфельдер, если вдруг она вам нравится:
https://youtu.be/2kxoq5UzAEQ
Приятного чтения :)
Вот например Gerard 't Hooft, лауреат Нобелевской премии и Breakthrough Prize.
Давно топит за то, что квантовая механика идёт не туда и имеет на эту тему свои неортодоксальные взгляды (https://arxiv.org/abs/2104.03179). Как я понимаю, они про то, что статистические описания они от бедности, потому что мы не можем заглянуть глубоко в суть до тех уровней энергии и масштабов времени, где всё это описывается более детерминированным способом, а текущие математические конструкции (типа действительных или комплексных чисел) уводят наш взгляд от сути. К действительным числам я тоже отношусь с большим подозрением :)
У т' Хоофта есть прям фундаментальная работа про как всё может быть устроено, и она (о ля ля!) про клеточные автоматы!
The Cellular Automaton Interpretation of Quantum Mechanics
https://link.springer.com/book/10.1007/978-3-319-41285-6
Книга доступна для скачивания бесплатно. Любителям Конрада Цузе, Вольфрама и прочих может понравиться.
Нашёл вот ещё обзор у Сабины Хоссенфельдер, если вдруг она вам нравится:
https://youtu.be/2kxoq5UzAEQ
Приятного чтения :)
SpringerLink
The Cellular Automaton Interpretation of Quantum Mechanics
This book presents the deterministic view of quantum mechanics developed by Nobel Laureate Gerard 't Hooft.Dissatisfied with the uncomfortable gaps in the way conventional quantum mechanics meshes with the classical world, 't Hooft has revived the old hidden…
🔥34❤14🤯6🎉4👍2👀1
Вышел огромный обзор "Speed Always Wins: A Survey on Efficient Architectures for Large Language Models": https://yangx.top/gonzo_ML_podcasts/699
В каком-то смысле это продолжение старой доброй “Efficient Transformers: A Survey” 2020 года (https://arxiv.org/abs/2009.06732).
В каком-то смысле это продолжение старой доброй “Efficient Transformers: A Survey” 2020 года (https://arxiv.org/abs/2009.06732).
Telegram
gonzo_ML_podcasts
Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
Authors: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu…
Authors: Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu…
👍7🔥4
В свежем IEEE Spectrum статья про термодинамические вычисления и компанию Normal Computing (писали про них тут и ранее).
Интересная цитата:
This results in the Normal Computing cofounders having a slightly different vision. They imagine a world where different kinds of physics are utilized for their own computing hardware, and every problem that needs solving is matched with the most optimal hardware implementation.
“We coined this term physics-based ASICs,” Normal Computing’s Belateche says, referring to application-specific integrated circuits. In their vision, a future computer will have access to conventional CPUs and GPUs, but also a quantum computing chip, a thermodynamic computing chip, and any other paradigm people might dream up. And each computation will be sent to an ASIC that uses the physics that’s most appropriate for the problem at hand.
Интересная цитата:
This results in the Normal Computing cofounders having a slightly different vision. They imagine a world where different kinds of physics are utilized for their own computing hardware, and every problem that needs solving is matched with the most optimal hardware implementation.
“We coined this term physics-based ASICs,” Normal Computing’s Belateche says, referring to application-specific integrated circuits. In their vision, a future computer will have access to conventional CPUs and GPUs, but also a quantum computing chip, a thermodynamic computing chip, and any other paradigm people might dream up. And each computation will be sent to an ASIC that uses the physics that’s most appropriate for the problem at hand.
IEEE Spectrum
Prototype Computer Uses Noise to Its Advantage
A new era in computing is here! Thermodynamic computing, akin to probabilistic computing, harnesses noise for efficient problem-solving. Imagine a world where physics-based ASICs tailor solutions to specific needs. Are we on the brink of a computing revolution?…
👍16❤10🔥3👏1