Embodied AI Reading Club
454 subscribers
18 photos
39 links
Канал книжного клуба команды Embodied agents Лаборатории Cognitive AI Systems AIRI
加入频道
Итоги встречи 27.09.2024 (презентация|запись) 1/2
#LLM #uncertainty

Встреча была посвящена методам измерения неопределённости (больших) языковых моделей (LLM) в генерации следующих токенов

Традиционный подход вычисления такой неопределённости — это энтропия, считающаяся на основании логитов модели, однако у неё есть минусы

В работе «Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation» [1] замечается, что у семантически эквивалентных предложений ("The capital of France is Paris" и "France’s capital is Paris.") разная энтропия, потому что она считается на основании вероятностей токенов, а не смыслов слов

Эту проблему решает предложенная в статье семантическая энтропия. Алгоритм её вычисления заключается в следующем:

1️⃣ С помощью LLM сэмплируется несколько вариантов продолжения текста по промпту

2️⃣ Среди них ищутся семантически эквивалентные предложения. Семантически эквивалентными являются такие предложения, что, если из предложения А следует предложение Б, и наоборот (процедуры из natural language entailment)

3️⃣ Вычисляется сумма энтропий семантически эквивалентных генераций — семантическая энтропия

Методы оценки неопределённости языковых моделей сравниваются на вопросно-ответных датасетах, потому что должно выполняться, что чем неувереннее генерация, тем менее вероятно, что ответ модели правильный. Эксперименты на GPT-like моделях (OPT с разным количеством параметров) и датасетах CoQA и TriviaQA в работе [1] показали, что семантическая энтропия лучше предсказывает перформанс модели, чем другие бейзлайны. Этот метод является unsupervised и использует только одну языковую модель, но не может быть использован в неизменном виде для black-box моделей (например, GPT-3.5 и старше), потому что опирается на логиты

В статье «Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs» [2], напротив, предлагается Confidence Elicitation framework, подходящий для black-box моделей

Задача оценки неопределённости в этом фреймворке делится на три компонента: формулировка промпта, стратегия сэмлинга и агрегация результатов. Confidence Elicitation framework позволяет выбрать любое сочетание всех компонентов в качестве оценки неопределённости модели. Например, можно оценивать неопределенность с помощью Top-K промптинга (вербализация неуверенности через числа — ”Provide your K best guesses and the probability that each is correct (0% to 100%) for the following question."), Self-random семплинга (генерация последовательности по одному промпту несколько раз) и Consistency агрегации (доля вариантов, совпадающих с верным ответом)

Пользуясь фреймворком и большими языковыми моделями (Vicuna 13B, GPT-3 175B, GPT-3.5-turbo, GPT-4, LLaMA 2 70B), авторы сравнивают между собой множество стратегий оценки неопределённости. Эксперименты, среди прочего, показывают что:

1️⃣ LLMs чересчур уверены (overconfident), если вербализируют уверенность, т. е. отвечают на вопрос о своей уверенности в ответе

2️⃣ Стратегии промптинга частично уменьшают overconfidence модели

3️⃣ Не существует лучшей стратегии промптинга

4️⃣ Использование методов агрегации, опирающихся на вербализированную уверенность, лучше, чем Consistency-only агрегация

При этом в качестве метода оценки неопределённости на новой задаче можно попробовать Top-K prompting + Self-Random sampling + Avg-Conf / Pair-Rank aggregation.
🔥7👍3👏1🤩1
Итоги встречи 27.09.2024 (презентация|запись) 2/2
#LLM #uncertainty

Статья «Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence Scores from Language Models Fine-Tuned with Human Feedback» [3] также посвящена оценке методов неопределённости LLM, но сравнивает другой набор методов и фокусируется на моделях, дообученных с RLHF

Помимо упомянутых ранее методов, в статье тестируется метод лингвистической вербализации неуверенности модели, когда модель должна рассказать про свою неуверенность в терминах естественного языка (шкала Almost certain, Likely, . . . , Almost no chance)

По результатам экспериментов с ChatGPT, GPT-4, Claude и на нескольких QA датасетах у больших RLHF-LMs более скалиброванными оказались вербализованные скоры неуверенности (числом или на естественном языке), чем внутренние вероятности (логиты)

Помимо этого, выяснилось, что сэмплинг улучшает скалиброванность, а Chain-of-thought prompting не улучшает скалиброванность методов с вербализацией

Также в предшествующих работах есть наблюдение, что confidence scores плохо скалиброваны (т. е. плохо отражают реальную неуверенность модели), если модель дообучалась с RLHF, и статья [3] подверждает это. Возможный выход — опираться на вербализованную числом или текстом неуверенность

Работа «Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations» [4] также фокусируется на моделях с RLHF, но отличается от предыдущих работ тем, что сравнивает разные методы оценки неопределённости для задачи abstention от ответа — отказа отвечать, если модель сильно не уверена в ответе (“I don’t know”)

Вербализованная неуверенность в статье называется внутридиалоговой неуверенностью (In-Dialogue Uncertainty) и сравнивается со статистической неуверенностью

Эксперименты показывают, что во всех рассмотренных авторами ситуациях верно подобранная мера внутридиалоговой неуверенности улучшает abstention, чего статистическая уверенность не делает. Кроме того, In-Dialogue uncertainty уменьшает количество галлюцинаций для вопросов, на которые невозможно ответить ("What color iPhone did Einstein prefer?")

Выводы
Рассмотренные работы показывают, что существует множество различных вариантов получения оценок неуверенности модели, в зависимости от задачи может быть полезен конкретный метод

Традиционно использующаяся энтропия не учитывает смысл текст [1, 2], и иногда полезными оказываются методы, основанные на вераблизации неуверенности [3]

Кроме того, оценку неопределённости модели удобно концептуализировать через prompting, sampling, aggregation [2]
🔥6👏1
Итоги встречи 18.10.2024 (презентация|запись)
#VLN #LLM #VLM

Встреча была посвящена обзору задач и подходов в Vision-and-Language Navigation (VLN)

🔺 До 2020 года VLN модели представлены преимущественно рекуррентными нейронными сетями, обрабатывающими последовательность конкатенированных эмбеддингов изображений и текстовых инструкций. После 2020 года произошел сдвиг в сторону графовых нейронных сетей и предобученных LLM/VLM

🔺 VLN задачи (полезная обзорная статья) можно классифицировать по:

✔️ типу среды — дискретная или непрерывная

✔️ communication complexity — может ли агент взаимодействовать с оракулом, знающим правильное действие. И если может, то каким способом

✔️ task objective — как агент достигает своей цели на основе первоначальных инструкций оракула (fine/coarse-grained navigation, есть ли взаимодействие со средой)

🔺 Основные VLN бенчмарки это: R2R, RxR, REVERIE, Touchdown, VLNA, FAO. На встрече рассмотрели, как они устроены и их baselin'ы

🔺 Обсудили несколько актуальных работ, использующих предобученные LLM и VLM:

✔️ В NaVid предложен подход на основе дообучения Vicuna-7B, работающий только с видео (RGB изображения), без использования какой-либо дополнительной информации (карта, одометрия, глубина). При этом, как утверждают авторы, при Sim-to-Real переносе их подход показывает 66% Success Rate на 200 инструкциях в четырех indoor сценах

✔️ В BehAV текстовый запрос на естественном языке разделяется на behavioral и navigation компоненты с помощью LLM. После чего с помощью general knowlege предобученной VLM на изображениях выделяются области повышенного интереса, по которым стоится behavioral cost map. Эта карта кодирует расположение объектов в пространстве и связывает их с затратами (cost), обусловленными правилами поведения. Например, при инструкции «избегай лестниц», объектам, классифицируемым как «лестница» будет присваиваться высокая затрата и агент начнет их избегать

✔️ В LM-Nav на первом этапе с помощью LLM из текстового запросы выделяются ориентиры (landmark), точнее их описание, например «white building» или «stop sign». На втором этапе с помощью VLM (авторы используют CLIP) ориентиры сопоставляются с наблюдениями и уже эта информация используется предобученной visual navigation model (ViNG) для навигации

Во время обсуждения был задан очень хороший вопрос:

«Насколько реалистичен сценарий использования языковых инструкций (подробных, длинных, со сложным описанием действий) в indoor сценах для навигации?»

Пишите свои варианты ответов в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👏1
Всем привет!🔥

Итоги встречи 08.11.2024 (презентация|запись)
#LLM #VLM #RL

Встреча была посвящена построению стратегии поведения по языковой инструкции в сложных мультимодальных средах

🔺 Game On: Towards Language Models as RL Experimenters

В данной работе представлена архитектура агента, использующая большие мультимодальные языковые модели (VLM) для автоматизации экспериментов по обучению с подкреплением (RL) в областях с физическим манипулятором. Цель состоит в автоматизации процесса обучения агента, который обычно требует участия человека, включая предложение, декомпозицию и выполнение задач, а также анализ прогресса

Основные компоненты системы:
✔️ Модуль учебного плана генерирует задачи для агента, основываясь на предыдущих успехах и неудачах, и разбивает сложные задачи на последовательности подзадач
✔️ Модуль выполнения использует библиотеку навыков и выполняет предложенные задачи в виртуальной среде. По завершении эпизодов он передает данные об успешности задач для дальнейшего обучения
✔️ Модуль оценки анализирует успешность обучения, определяя, достиг ли агент поставленных целей, и добавляет освоенные навыки в библиотеку

Эксперименты показали, что использование VLM позволяет эффективно обучать агента новым навыкам, разрабатывать динамические учебные планы и создавать более сложные последовательности действий для выполнения задач

🔺 Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments

Подход IGOR (Instruction Following with Goal-Conditioned Reinforcement Learning) разработан для того, чтобы агент мог следовать инструкциям в сложных средах

Основные модули системы включают:
✔️ Языковой модуль (Language Module), который преобразует инструкции в последовательности подзадач
✔️ Менеджер задач (Task Manager), который управляет этими подзадачами и передает их в удобном формате в модуль стратегии
✔️ Модуль стратегии (Policy Module) — агент на основе RL, обученный для выполнения подзадач, используя наблюдения за состоянием окружения и обученный методом PPO

Подход также предусматривает обучение по учебной программе (curriculum learning), где задачи, которые оказались сложными и требуют большего числа попыток, получают приоритет для повышения общего успеха агента. Виртуальные среды IGLU и Crafter использовались для тестирования эффективности подхода. В IGLU агент строил структуры по командам, а в Crafter выполнял достижения, такие как сбор ресурсов и создание предметов. В обоих случаях IGOR превзошел существующие решения

🔺 Общие выводы

✔️ В обеих работах эффективно используется разделение функций между языковым модулем, предлагающим подзадачи, и отдельным модулем стратегии, обучаемым с помощью обучения по учебной программе

✔️ Недостатки обоих подходов: фиксированный набор навыков, на основе которых строится план, и невозможность автоматической корректировки плана во время работы агента RL

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Всем привет!🔥

Итоги встречи 15.11.2024
(презентация|запись)
#RL #Memory #LLM #VLM

На встрече были разобраны новые работы по использованию механизмов памяти при принятии решений в контексте VLM и RL агентов

🔺 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

В данной работе рассматривается VLM агент, решающий сложные задачи в среде Minecraft

Авторы считают, что существующие агенты сталкиваются с трудностями при выполнении long-horizon задач в open-world сеттинге в связи с тем, что им не хватает знания о мире и его мультимодального описания

Для решения этих проблем авторы предлагают Hybrid Multimodal Memory (HMM) модуль, который:
✔️ преобразует знание в Hierarchical Directed Knowledge Graph, позволяющий явно представить знание о мире и изучить его
✔️ суммаризует историческую информацию в Abstracted Multimodal Experience Pool, который передает агентам дополнительную информацию для in-context обучения

Вместе с Knowledge-Guided Planner и Experience-Driven Reflector модулями, необходимыми для лучшего планирования и рефлексии агента для long-horizon задач, HMM образует мультимодального агента Optimus-1

Предложенный подход позволяет нивелировать различие между топовыми проприетарными и open-sourced VLM моделямями и достичь результатов, сравнимых с человеческими, при решении задач в Minecraft

🔺 AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning

Механизмы памяти помогают оптимизировать стратегию в постановке задачи с разреженными функциями вознаграждения

AdaMemento — адаптивный memory-enhanced RL фреймворк, позволяющий решать такие задачи. Он состоит из Memory-reflection module, позволяющего использовать как положительный, так и отрицательный опыт, обучаясь использовать локальные стратегии на основании текущих состояний, и Coarse-fine distinction module, позволяющего эффективно собирать информативные траектории в память за счет Fine-grained intrinsic-motivation paradigm, различающей небольшие различия (нюансы) в похожих состояниях

Использование данного подхода позволило получить существенно лучшие результаты по сравнению с другими бейзлайнами на такой тяжелой задаче как Atari/Montezuma's Revenge

🔺 Общие выводы

В обеих работах используются модули внешней памяти, позволяющие подкрепить принятие решения агента дополнительной информацией, что позволяет добиваться лучших результатов по сравнению с методами без таких модулей

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🗿1
Всем привет!🔥

Итоги встречи 22.11.2024 (презентация|запись)
#LLM #LTL #Planning

На встрече были разобраны подходы к использованию временной логики для формальных спецификаций и планирования

🔺 CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning

В данной работе представлен подход CoT-TL (Chain-of-Thought for Temporal Logic), позволяющий переводить инструкции на естественном языке в формальные спецификации линейной временной логики (LTL) для использования в планировании для автономных агентов

Основные модули системы:
✔️ Модуль семантической разметки анализирует текстовые инструкции, выделяя роли слов (например, действие, цель, путь), что помогает точнее интерпретировать задания
✔️ Модуль генерации LTL использует цепочки рассуждений (Chain-of-Thought) для пошагового преобразования текстовых описаний в формулы LTL, что повышает интерпретируемость и точность
✔️ Модуль проверки моделей проверяет синтаксическую корректность формул LTL и их применимость с помощью автоматов Бюхи.

Эксперименты на трех наборах данных (Drone Planning, CleanUp World, Pick-and-Place) показали:
✔️ Точность перевода текстовых инструкций в LTL: 79.6% для Drone Planning, 91.7% для CleanUp World и 90.0% для Pick-and-Place
✔️ CoT-TL на базе GPT-4 показал наивысшую точность среди существующих методов при ограниченных данных, превзойдя альтернативы, не использующие обучение (на 10–15% выше).

🔺 SELP: Generating Safe and Efficient Task Plans for Robot Agents with Large Language Models

Работа посвящена созданию безопасных и эффективных планов для роботизированных агентов с использованием больших языковых моделей (LLM). Предложен подход SELP (Safe Efficient LLM Planner), который включает три ключевых механизма:
✔️ Механизм голосования эквивалентности проверяет логическую эквивалентность нескольких формул LTL, выбирая наиболее вероятную
✔️ Ограниченное декодирование преобразует LTL в автоматы Бюхи для проверки последовательности действий, исключая небезопасные шаги
✔️ Специализированное дообучение позволяет LLM генерировать планы, оптимизированные по безопасности и эффективности

Эксперименты в задачах навигации дронов и манипуляции роботами продемонстрировали:
✔️ Увеличение показателя безопасности выполнения на 10.8% и эффективности выполнения на 19.8% в задачах навигации дронов
✔️ Улучшение безопасности на 20.4% для задач манипуляции объектами

🔺 Общие выводы

Обе работы демонстрируют перспективность использования линейной временной логики (LTL) для автоматизации планирования и выполнения сложных задач. Методы, такие как цепочки рассуждений и ограниченное декодирование, помогают обеспечить безопасность, интерпретируемость и точность выполнения

Основные ограничения связаны с:
✔️ Зависимостью от зафиксированных навыков и ограниченного набора данных для обучения
✔️ Ограниченной гибкостью в обработке динамических изменений в условиях выполнения задач

Тем не менее, интеграция LTL с крупными языковыми моделями открывает возможности для создания универсальных и надежных планировщиков для роботизированных систем

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1