Марат пишет про науку (в основном)
596 subscribers
116 photos
8 videos
1 file
704 links
Кидаю сюда ссылки на свои тексты, рассуждаю про физику, искусственный интеллект и их связь с видеоиграми
@zumrus
加入频道
Глядя на один и тот же снимок рентгена лёгких, разные врачи могут выделить на них разные области затемнений, вызванные пневмонией. И тем не менее, на таких вот неоднозначных разметках нужно обучать ИИ-модели, которые как раз таки должны облегчить труд этих же самых врачей.

Оказалось, что это задача сложная, но вполне решаемое. В этом можно убедиться, взглянув на победителей соревнования MIDRC XAI Challenge, организованного одноимённым американским фондом по развитию медицинских ИИ-моделей.

Команда исследователей из AIRI приняла в нём участие и заняла там пятое призовое место. Сегодня на Хабре при моём участии вышел текст о том, с какими трудностями им пришлось столкнуться, и как они с ними справились
Соревнования — это ещё одна отличительная черта науки об ИИ, которой нет в остальных областях. Скорее всего, я ещё не раз и не два буду про них рассказывать.

Родом из IT-культуры, эта традиция позволяет быстро получить спектр подходов для решения определённой прикладной задачи с теми или иными ограничениями. Соревнования состоят из задач, которые готовят разные научные группы для участников (денежные призы там тоже положены, естественно).

Одну такую задачу подготовили мои коллеги из лаборатории FusionBrain AIRI в рамках соревнования AIJ Contest. Целью участников было научить ИИ понимать социальные взаимодействия по видео. Название задачи было соответствующим: Emotional FusionBrain 4.0.

Соревнование уже подошло к концу, победители определены. Про итоги своей задачи и про подходы, выбранные победителями, исследователи из FusionBrain рассказали сегодня при моей поддержке в статье на Хабре
https://habr.com/ru/companies/airi/articles/864422/
Давным-давно, когда только появился фотошоп, меня крайне поражал тамошний инструмент под названием «Волшебная палочка». Эта опция позволяла одним кликом выделять границы объектов, чтобы потом его можно было скопировать и вставить на другую картинку. Так создавались первые неказистые коллажи, в которых головы друзей ставились на плечи супергероям (или ещё чего похуже…).

Та волшебная палочка алгоритмически работала очень просто, и впечатление чуда от её использования рутинизировалось по мере того, как приходилось выделять на изображении более сложные объекты. Сегодня же интерактивную сегментацию изображений — именно так называется это задача по-умному — решают с помощью самых разнообразных моделей машинного обучения.

Чтобы учить эти модели, разработчикам нужны хорошие модели пользовательского поведения при их использовании: куда кликает/тапает человек, что на это влияет и тому подобное. Оказывается, этих моделей не так-то и много.

Эту проблему смогла решить большая сборная исследователей из AIRI. Для этого они собрали большой датасет, в который попали без малого полмиллиона живых человечьих кликов и тапов, собранных через специальный интерфейс. Авторы не только построили новую модель кликающего человека, но и создали на основе датасета бенчмарк, прогнав через него существующие решения для сегментации, чтобы понять, какое лучше.

Про результаты этой работы вышла сегодня с моей помощью статья на Хабре. А сам я кратко изложил суть работы в новостной заметке на сайте AIRI
Если вы долго общаетесь с ChatGPT, он начинает забывать, что вы писали ему ранее. То количество слов, с которого начинается такое забвение, определяется величиной, которая называется длиной контекста или длиной входной последовательности. Если она у LLM слишком мала, вы не сможете, к примеру, подать туда все книги про Гарри Поттера и ждать, что модель безошибочно найдёт там нужный вам факт.

Стандартная длина контекста большинства распространённых моделей — 128 тысяч токенов, что примерно составляет весь текст книги про Хоббита на английском языке. Большие входные последовательности требуют от разработчиков больше усилий, но такие усовершенствования необходимы, чтобы системы ИИ развивались. Кроме того, неплохо было бы иметь надёжные тесты того, что длинные контексты в моделях работают: недавно стало известно, что без дополнительных ухищрений LLM охотно забывают информацию из середины последовательности.

Одним из таких инструментов для проверки стал новый бенчмарк BABILong, который разработали исследователи из AIRI и их коллеги. О том, что это за новинка, рассказал сегодня на Хабре один из его авторов Айдар Булатов. Я же кратко пересказал эту работу в блоге на сайте Института.

Если вкратце: бенчмарк показывает, что даже лучшие LLM, которые заявляют работу с длинными контекстами, норовят терять информацию. Зато этого не происходит с трансформерами на основе памяти, про которые я уже писал ранее: там контекстное окно удаётся расширить до 50 миллионов токенов
Сейчас везде принято оглядываться на проделанное за год. В рамках этой традиции я вспомнил, что не рассказывал ещё об одном большом тексте про физику.

Его история начинается более года назад, когда N + 1 был информационным партнёром премии Вызов 2023, и меня попросили написать коммерческий материал про поляритонику — группа одного из победителей ею занимается. Судьба у черновика оказалась непростая: он, как говорят в медиаиндустрии, попал в производственный ад, сменив несколько выпускающих редакторов, проверяющих экспертов, а также полежав в долгом ящике несколько месяцев. Осенью его спешно решили выпустить, поэтому что получилось, то получилось. В суете нынешних задач я даже забыл рассказать о нём в канале.

Тем не менее, мне всё ещё нравится этот текст. В нём я рассказываю про квантовую статистику и про квазичастицы. Как следует из названия, в первую очередь он посвящён поляритонам — квазичастицам, в которых смешаны свободные фотоны и колебания среды. Для меня было важно, что я смог на широкую аудиторию (пошире, чем две группы на моих лекциях) показать, как принцип суперпозиции в фейнмановской формулировке квантовой механики превращается в показатель преломления, известный ещё со школы: мысль, которая не выходит у меня из головы уже несколько лет, но которую я не встречал в учебниках по классической или квантовой оптике.

Занятный момент: поляритонов существует довольно много, но у меня сложилось ощущение, что термин «поляритоника» забрали себе исследователи экситон-поляритонов. Вероятно, предполагалось, что текст будет посвящён только им, но я всегда стараюсь раздавать всем сёстрам по серьгам. В итоге я получил очень много правок и комментариев в разделе с экситон-поляритонами, и ни одной — в разделах с другими поляритонами.

В общем, текст тут, почитайте на досуге
Хотя я пишу про ИИ уже полтора года, я всё ещё чувствую себя гостем-физиком на этом празднике нейросетей. Но машинное обучение универсально и повсеместно, поэтому, нет-нет, да и приходится писать тексты про статьи на стыке ИИ и физики. В этот момент я чувствую большое вдохновение!

Сегодня про ровно такой случай. Ну, почти такой: применение нейросетей в квантовой химии. Впрочем, последнее — это, по сути, сильно прикладная квантовая механика, поэтому я чувствую себя в этой теме сравнительно уверенно.

На этот раз мы с учёными рассказываем о большом датасете для нейронных солверов, которые помогают «срезать углы» некоторым квантовохимическим методам. В частности, речь идёт об аппроксимации матрицы DFT-гамильтониана (про метод DFT я тоже периодически пишу, например, тут), с помощью которой всё считается довольно хорошо, но работает только рамках одной молекулярной формулы.

Эту проблему можно решить, если собрать достаточно большой датасет. Именно это и сделала большая команда исследователей, включая моих коллег из AIRI, подготовив базу данных и бенчмарк для соответствующих нейросетей в одном флаконе под названием ∇²DFT. Датасет открытый, а бенчмарк очень здорово организован, позволяя моделям тестироваться на разные уровни обобщения (например, разные конформации одной формулы или совсем разные молекулы).

Я помог сегодня одному из авторов работы — Кузьме Храброву — выпустить большой текст на Хабре, посвящённый разработке. Сам же я параллельно подготовил краткую заметку для блога
Год у меня начался с некоторой жизненной чехарды, и это сказывается на постах канала. И всё же пришла пора продолжать радовать подписчиков 😃

На этот раз повод более чем достойный: на N + 1 наконец-то вышел ещё один мой долгострой — черновик по физике в игре Prey. Игру я прошёл ещё в начале осени, а черновик из-за загруженности смог дописать лишь к концу. Ну а там и предновогодняя суета внесла свои коррективы.

Когда я только садился играть, я думал, что уже здесь-то мне работать не придётся. Но нет, игра смогла удивить тем, насколько её авторы заморочились с научной (а точнее альтернативно-научной) проработкой своего мира. В конечном итоге, чтобы поговорить о физике мне сначала пришлось разобраться с философией сознания!

По старой журналистской традиции при написании разбора я доставал емейлами самых разных людей по всему миру, включая главу команды разработчиков и легенду геймдева Рафаэля Калантонио. О том, что из этого вышло, читайте в свежем блоге на N + 1
Способность машин к эмоциям — важный нарратив, который встречается в научной фантастике, пожалуй, с момента основания жанра. В качестве примера могу привести один из моих самых любимых фильмов — «Терминатор 2: Судный день» — во всяком случае, его режиссёрскую версию, из которой не порезали всё, что связано с эмоциональным обучением T-800.

В эпоху LLM вопрос об эмоциональном искусственном интеллекте перешёл из области фантастики в практическую область. Да, ИИ пока не управляет чувствительными роботами, способными поплакать с нами в обнимку. И всё же, живущие в недрах дата-центров большие языковые модели впитывают колоссальное количество человеческих текстов, в которых уже заложены эмоциональные паттерны.

Интуитивно все исследователи давно понимали, что при таких условиях некий базовый эмоциональный интеллект у LLM должен быть. Но как его качественно оценить, если у вас есть лишь машина, которая пишет тексты? Большая коллаборация учёных из разных стран, включая моих коллег из AIRI, нашла одно из возможных решений — игры и этические сценарии.

Дело в том, что существует ряд классических игр, дилемм и экспериментов, которые проверяют способность людей к сочувствию, сотрудничеству, альтруизму и тому подобному — вы наверняка слышали про «Дилемму заключённого» или «Проблему вагонетки» (если нет, то стоит почитать). Оказывается, что решению людей в этих играх часто зависят от эмоций, в которых они находятся.

Авторы новой работы предписывали моделям с помощью промптов разные эмоции и смотрели на то, насколько меняются их ответы, а, главное, насколько это изменение соответствует таковому у реальных людей. Эксперименты проводились с самыми разными моделями, а результаты были опубликованы в научной статье, которую недавно не без моего участия пересказал на Хабре один из членов исследовательской команды. Ну а я, по традиции, написал об этом короткий блог.
Часто бывает, что научные термины формируются — исторически или специально — из таких слов, услышав которые, обыватель подумает совсем о другом. Например, «компактная» — это плохой комплимент для девушки, разбирающейся в высшей математике, а «волосы» у чёрной дыры — это совсем не волосы.

Если бы меня попросили подобрать подобный термин для машинного обучения или статистики, я бы, конечно же, остановил свой выбор на оптимальном транспорте — частом госте на моём канале. Нет, это история не про хорошо работающие троллейбусы и метро, — она про то, как переходить от одного вероятностного распределения к другому. Когда-то речь шла о распределении ресурсов в экономике (по сути, транспортировка грузов), сегодня — распределении пикселей на экране монитора или иной генеративной задаче.

Это не единственная лингвистическая сложность, которая может возникнуть при чтении свежего блога. Всё-таки, данная область сильно математизировалась: обросла теоремами, понятиями из функционального анализа и вариационного исчисления. Но если тщательно во всём разобраться, из свежей заметки можно узнать, за что работа учёных из AIRI и Сколтеха была удостоена попаданием в трек отобранных исследований на самой крутой конференции по искусственному интеллекту под названием NeurIPS 2024
Прогресс, как известно, бывает поступательный (эволюция) и скачкообразный (революция). В случае с ИИ первый обеспечивается наращиванием «железа», а второй — изобретением новых алгоритмов и архитектур. Впрочем, над последними тоже ведётся последовательная работа: методом научного тыка архитектуры усовершенствуются и усложняются, чтобы выиграть пару-тройку очков на очередном бенчмарке.

Но бывают примеры, когда нужно, наоборот, упрощать. Сегодняшний кейс — ровно такой.

Про оценку неопределенности я уже как-то рассказывал. Она позволяет модели отказаться от принятия решения, если ситуация неоднозначная. Это позволяет быть более осторожным в чувствительных областях с высокой ценой ошибки, например, в медицине или праве.

Чтобы оценивать неопределённость, применяют кучу разных методов, например аппроксимацию Лапласа. Это байесовский метод, который предполагает, что параметры модели распределены нормально. Главное тут, что для вычисления неопределённости нужно оценивать кривизну параметров модели, рассчитывая гессиан — матрицу вторых производных. А это довольно сложно, когда число параметров становится очень большим.

Команда исследователей, в которую входит инженер-исследователь группы «Адаптивные агенты» AIRI Максим Жданов, показала, что замена гессиана на простую единичную матрицу не только сокращает время вычисления, но зачастую работает лучше классических вариантов аппроксимаций Лапласа. Они написали об этом научную статью, а также статью для Хабра, которую я помог Максиму сегодня выпустить
Audio
У нас в Институте AIRI во всю готовятся праздновать День российской науки — 8 февраля. Среди прочего мы запускаем довольно необычный эвент, который имеет отношение и к науке, и к ИИ — конкурс ИИ-балладизации научных статей.

Алгоритм таков:
1) берёшь абстракт выбранной статьи,
2) просишь LLM сгенерировать на его основе стихотворную лирику,
3) просишь генеративную аудиомодель сгенерировать на основе лирики песню в заданном жанре.

Автор набравшего большее число реакций трека получает набор мерча Института.

Конкурс проходит в канале AIRI Community, детали и инструкции — в отдельном посте (нужно вступить по ссылке). Тематика статей любая, не только ИИ. Я лично превратил в песню в жанре электронной музыки одну из своих статей, посвящённую изменению массы электрона и энергии ионизации атомов в среде фотонного кристалла.

Попробуйте и вы!
AIRI — относительно молодой институт. Большинство там или мои ровесники, или младше меня. Из-за этого интересы учёных там тоже довольно «молодые». Например, вы знали, что в AIRI есть LEGO-клуб и клуб настолок?

А ещё многие из мои коллег в той или иной степени погружены и разбираются в гик-культуре, включая столь любимые мною видеоигры. И иногда эта культуры просачивается в научные статьи!

В свежем блоге на нашем сайте я рассказываю сразу несколько статей, написанных Александром Тюриным, руководителем группы «Методы оптимизации в машинном обучении» AIRI, и его коллегами. Статьи сложные, но интересные: в них описано несколько алгоритмов, которые ускоряют распределенное обучение, проводимое сразу несколькими узлами в сети.

Самое прикольное, что Александр дал новым методам названия в честь женских персонажей из нескольких титулованных видеоигр. Сможете узнать их всех?
Пока куются новые сложные тексты, решил разбавить канал чем-то попроще и вообще снова про видеоигры.

На изображении к посту — скрин из вступления Old World Blues, DLC к Fallout New Vegas. Нет, это не ошибка перевода — в оригинале так же, я проверил. Вот что бывает, когда при создании игры пытаешься в естественно-научный вайб, но ты гуманитарий 🙈.

PS Если захотите поспорить на тему того, что «экспоненциально» не равно «в геометрической прогрессии», вспомните формулу:
= ˡᵒᵍ

PPS Встретил мнение, что такая ошибка допущена намеренно, чтобы подчеркнуть безумие рассказчика. Мне кажется, что это всё же не так, но не упомянуть не могу
Мой отец уже более 40 лет занимается фотографией. У него есть профессиональная камера, но он всё реже достаёт её, потому что качество картинки, которое выдают современные смартфоны, растёт с каждым годом.

Как это объяснить? Неужели в телефоны стали лепить такую оптику, из-за которой большие объективы больше не нужны? Конечно же нет (вернее, скорее нет). Главный прогресс идёт на ниве алгоритмов, которые обрабатывают сделанное наспех фото, приближая его качество к удовлетворительному, а, если повезёт, и отличному. Но на этом пути ещё многое предстоит сделать, особенно если идёт речь о ночной фотографии.

В этом направлении работает команда, в которую входят мои коллеги из AIRI и ИППИ РАН. Чтобы стимулировать молодых исследователей внести свой вклад с помощью методов глубокого обучения, они организовали соревнование в рамках одной из престижнейших конференций по ИИ под названием CVPR.

Подробнее о постановке задачи и условиях они рассказали сегодня на Хабре (а я помог, как обычно). Если вы или кто-то из вашего круга занимается вычислительной фотографией, обратите на этот челлендж внимание.

Хотя текст вышел в основном посвящённый алгоритмам, физикам-оптикам может быть интересна методика сбора датасета, состоящего из пар фотографий для обучения моделей. Авторы использовали традиционный светоделитель, который перенаправлял одни и те же лучи сразу на два устройства: профессиональную камеру Sony и бюджетный смартфон Huawei (см. фото).

Задачей участников челленджа как раз таки и станет превратить второе в первое с помощью ИИ-магии (но не только)
Это пост про то, как я провёл свой маленький эксперимент на стыке физики и ИИ.

Если вы хоть немного просматриваете новости ИИ-мира, то вы возможно слышали про инструмент Deep Research, который стабильно набирает популярность в последние недели и появляется у всех ключевых игроков на рынке. Эта штука, которая сама способна поискать информацию, проанализировать её, выдать по ней отчёт, и даже, говорят, проводить самостоятельные исследования.

Я решил проверить в действии Deep Research, пытаясь выяснить, что нового в последние годы физики-теоретики думают про электромагнитную массу электрона — мне это нужно для следующей научной статьи. Электромагнитная масса, напомню, это противоречивый концепт, который возник на раннем этапе создания квантовой электродинамики. Она вроде как должна возникать для свободного электрона, но вроде и выходит бесконечной по формулам, из-за чего её исключают из физической картины.

Подробнее про эту историю я писал тут. Для моего эксперимента важно, что эта тема находится далеко от мейнстрима современной теоретической (и уж тем более экспериментальной) физики, и искать по ней свежие статьи очень тяжело.

К сожалению, Deep Research для ChatGPT, где он впервые появился, пока мне не доступен, но зато он есть бесплатно у Perplexity и у свежего Grok. Чтобы попросить глубоко исследование, требуется выбрать специальную опцию у соответствующей LLM. Для сравнения я сделал точно такой же запрос, но в режиме обычного поиска у бесплатных версий ChatGPT, DeepSeek и Le Chat.

• Полезнее всех оказался ответ Perplexity. Модель думала очень долго, более 15 минут, кажется. Но из её отчета я смог получить несколько ссылок, которые я не смог бы найти традиционным гуглением из-за специфичных формулировок и смежности тем. Важно, что всё опубликовано в пределах последних десяти лет.
• Grok дал неплохую историческую справку, но все его ссылки были не позже середины XX века, что мне не подходит.
• Ответы других LLM в режиме поиска были похожи друг на друга, хотя у ChatGPT было побольше ссылок. Примечательно, что DeepSeek выдал примерно то же самое, хотя для него поиск в Интернете сейчас принудительно отключен создателями.

Кстати, в первоначальном варианте я забыл включить опцию Deep Research в Perplexity, но она всё равно нашла мне один препринт на viXra, на который я вообще не привык заходить. В целом, эта модель изначально позиционирует себя как инструмент для учёных, и, похоже, такая подача себя полностью оправдывает. Рекомендую, коллеги.

P.S. У Дениса Ширяева можно прочитать советы по использованию Deep Research от ChatGPT, если вдруг у вас есть доступ к платной версии. Говорит, работает даже лучше Perplexity. Что ж, есть повод поработать над доступом туда ✍️
Please open Telegram to view this post
VIEW IN TELEGRAM
В прошлом посте я упоминал алгоритмы распределённого обучения, названные Александром Тюриным из AIRI в честь персонажей видеоигр. Их на самом деле больше — про некоторые из них мы с ним вчера выпустили статью на Хабре.

Статья вышла интересная: она даёт краткое представление о том, чем обучение модели (а, конкретно, поиск минимума функции потерь) на одном компьютере/видеокарте отличается от обучения на целой сети вычислителей с точки зрения математики. Несмотря на обилие формул, она будет понятна тем, кто имеет представление о стохастическом градиентном спуске и вычислительной сложности алгоритмов
This media is not supported in your browser
VIEW IN TELEGRAM
Про диффузионные модели я пишу сравнительно часто. Два-три года назад они удивляли нас тем, как здорово им удаётся рисовать изображения по текстовому запросу, но сейчас обыватели к этому инструменту попривыкли, а исследователи двигаются дальше.

Взять хотя бы игровые нейродвижки, некоторые из которых я тут освещаю, а некоторые — нет. Современные игры — это чаще всего работа с 3D-объектами, наполняющими сцену, которую мы видим на плоском экране монитора. В этом смысле перед нейродвижком ставится задача рисовать, по сути, все те же изображения, просто связанные друг с другом игровой логикой.

А что насчёт генерации честного 3D, но тоже с помощью диффузии? Казалось бы, это всего лишь +1 к размерности, что для математики не проблема. На практике всё несколько сложнее, но эта идея оказалось вполне работоспособной. Правда, на этом пути возникло несколько трудностей.

Например, даже обычные рисовалки вроде MidJorney не обладают воспроизводимостью: один и тот же запрос приводит к разным изображениям. В трёхмерной анимации или дизайне требования более строгие: например, вам нужен ряд разных фигур, но в одной позе, но существующие модели такое выдать не способны.

Эту проблему решает новый подход, разработанный в том числе и учёными из AIRI. Они придумали трюк, который математически связывает все однотипные промпты, делая генерацию разных объектов более однородной. Более того, такая связь позволяет непрерывно превращать одних трёхмерных существ в других без смены позы или редактировать результат.

Подробности — в свежей статье на Хабре от одной из участниц научной команды
Я часто рассказываю на страницах этого канала про оптимальный транспорт, благо инфоповодов исследователи AIRI дают предостаточно. Мне нравится эта история, потому что она максимально междисциплинарна: началась в математике в XVIII веке, продолжилась в экономике в XX веке, а сейчас цветёт пышным цветом в машинном обучении.

Во всех предыдущих случаях тексты про оптимальный транспорт писал я сам, как я его понимаю. Но на этот раз мне удалось довести до ума материал для Хабра, написанный исследователем, занимающимся непосредственно этой темой. А конкретно, Миленой Гадзиевой из команды «Основы генеративного ИИ» в AIRI.

Текст посвящён новому метод оценки взвешенных средних (барицентров) распределений, устойчивый к различным выбросам и дисбалансам в данных. Чтение может показаться сложным, но взамен статья позволит оценить степень математичности современных методов машинного обучения, которые уже сегодня находят применение на практике
Марат пишет про науку (в основном)
Это пост про то, как я провёл свой маленький эксперимент на стыке физики и ИИ. Если вы хоть немного просматриваете новости ИИ-мира, то вы возможно слышали про инструмент Deep Research, который стабильно набирает популярность в последние недели и появляется…
Продолжаю свой эксперимент с подготовкой научной статьи по теоретической физике с помощью Deep Research.

На этот раз короткая задача: в промпт я закладывают краткое описание того, что сделано в статье, и прошу систему подобрать наиболее релевантные журналы 1-2 квартиля по моей тематике. Вообще-то говоря, выбрать правильный журнал — это базовый навык, которым должен владеть каждый учёный. Тем интереснее было проверить, как новый инструмент с этим справляется.

Результатом я остался скорее доволен. Первым же журналом в списке от ИИ оказался Physical Review A, в котором у меня уже выходила одна из предыдущих статей, и в котором я снова планировал пытать счастья. Остальные журналы были в принципе подходящими, хотя и не теми, про которые я бы вспомнил во вторую очередь.

По правде говоря, предложения Deep Research частично перекликались с пунктами из литературного обзора, что наталкивает на мысль, что, как и в прошлый раз, выборка обусловлена тем, что модель способна искать только по препринтам и Open Access.

По этой и ещё ряду причин я бы не рекомендовал целиком полагаться на такой ответ и проводить подобную работу самостоятельно, благо гайдов для этого предостаточно. Но в качестве первого шага к выбору журнала — вполне себе да.

PS Как и в прошлый раз, я работал с Deep Research от Perplexity. Доступ к аналогичному инструменту от OpenAI я получить так и не смог, даже несмотря на американский VPN.
В школе нас всех учили записывать химические формулы для молекул, например, вот так: H₂O. В таком же духе мы заносили в тетрадки целые химические реакции. Это всё, по сути, текст, который несёт некоторые знания. А раз так, то его можно попробовать скормить языковым моделям, и посмотреть, усвоят ли они химию.

Сказано — сделано. Сегодня существует уже с полдюжины химических языковых моделей (ChemLM), которые работают по этому принципу. Разница только в том, что обычно молекулы превращают в текст не так, как мы привыкли в школе, а с помощью специальных систем, вроде языка SMILES или системы ИЮПАК. А ещё можно обучить ChemLM одновременно химии и языку, и тогда модель сможет описывать молекулу человеческими словами (и наоборот). Про это я уже рассказывал.

Впрочем, возникает резонный вопрос: такие модели действительно выучивают химию или лишь текстовые представления молекул. Верный способ проверить это: внести чуть-чуть переобозначений — например, преобразовать ароматические связи в явные двойные или перенумеровать индексы в циклах — и сравнить результат.

Именно это сделали недавно NLP‑исследователи из AIRI и Сбера. О том, что они таким способом выяснили — рассказывает новый хабр