Embodied AI Reading Club
454 subscribers
18 photos
39 links
Канал книжного клуба команды Embodied agents Лаборатории Cognitive AI Systems AIRI
加入频道
Всем привет!🔥

Итоги встречи 15.11.2024
(презентация|запись)
#RL #Memory #LLM #VLM

На встрече были разобраны новые работы по использованию механизмов памяти при принятии решений в контексте VLM и RL агентов

🔺 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

В данной работе рассматривается VLM агент, решающий сложные задачи в среде Minecraft

Авторы считают, что существующие агенты сталкиваются с трудностями при выполнении long-horizon задач в open-world сеттинге в связи с тем, что им не хватает знания о мире и его мультимодального описания

Для решения этих проблем авторы предлагают Hybrid Multimodal Memory (HMM) модуль, который:
✔️ преобразует знание в Hierarchical Directed Knowledge Graph, позволяющий явно представить знание о мире и изучить его
✔️ суммаризует историческую информацию в Abstracted Multimodal Experience Pool, который передает агентам дополнительную информацию для in-context обучения

Вместе с Knowledge-Guided Planner и Experience-Driven Reflector модулями, необходимыми для лучшего планирования и рефлексии агента для long-horizon задач, HMM образует мультимодального агента Optimus-1

Предложенный подход позволяет нивелировать различие между топовыми проприетарными и open-sourced VLM моделямями и достичь результатов, сравнимых с человеческими, при решении задач в Minecraft

🔺 AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning

Механизмы памяти помогают оптимизировать стратегию в постановке задачи с разреженными функциями вознаграждения

AdaMemento — адаптивный memory-enhanced RL фреймворк, позволяющий решать такие задачи. Он состоит из Memory-reflection module, позволяющего использовать как положительный, так и отрицательный опыт, обучаясь использовать локальные стратегии на основании текущих состояний, и Coarse-fine distinction module, позволяющего эффективно собирать информативные траектории в память за счет Fine-grained intrinsic-motivation paradigm, различающей небольшие различия (нюансы) в похожих состояниях

Использование данного подхода позволило получить существенно лучшие результаты по сравнению с другими бейзлайнами на такой тяжелой задаче как Atari/Montezuma's Revenge

🔺 Общие выводы

В обеих работах используются модули внешней памяти, позволяющие подкрепить принятие решения агента дополнительной информацией, что позволяет добиваться лучших результатов по сравнению с методами без таких модулей

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🗿1
Всем привет!🔥

Итоги встречи 22.11.2024 (презентация|запись)
#LLM #LTL #Planning

На встрече были разобраны подходы к использованию временной логики для формальных спецификаций и планирования

🔺 CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning

В данной работе представлен подход CoT-TL (Chain-of-Thought for Temporal Logic), позволяющий переводить инструкции на естественном языке в формальные спецификации линейной временной логики (LTL) для использования в планировании для автономных агентов

Основные модули системы:
✔️ Модуль семантической разметки анализирует текстовые инструкции, выделяя роли слов (например, действие, цель, путь), что помогает точнее интерпретировать задания
✔️ Модуль генерации LTL использует цепочки рассуждений (Chain-of-Thought) для пошагового преобразования текстовых описаний в формулы LTL, что повышает интерпретируемость и точность
✔️ Модуль проверки моделей проверяет синтаксическую корректность формул LTL и их применимость с помощью автоматов Бюхи.

Эксперименты на трех наборах данных (Drone Planning, CleanUp World, Pick-and-Place) показали:
✔️ Точность перевода текстовых инструкций в LTL: 79.6% для Drone Planning, 91.7% для CleanUp World и 90.0% для Pick-and-Place
✔️ CoT-TL на базе GPT-4 показал наивысшую точность среди существующих методов при ограниченных данных, превзойдя альтернативы, не использующие обучение (на 10–15% выше).

🔺 SELP: Generating Safe and Efficient Task Plans for Robot Agents with Large Language Models

Работа посвящена созданию безопасных и эффективных планов для роботизированных агентов с использованием больших языковых моделей (LLM). Предложен подход SELP (Safe Efficient LLM Planner), который включает три ключевых механизма:
✔️ Механизм голосования эквивалентности проверяет логическую эквивалентность нескольких формул LTL, выбирая наиболее вероятную
✔️ Ограниченное декодирование преобразует LTL в автоматы Бюхи для проверки последовательности действий, исключая небезопасные шаги
✔️ Специализированное дообучение позволяет LLM генерировать планы, оптимизированные по безопасности и эффективности

Эксперименты в задачах навигации дронов и манипуляции роботами продемонстрировали:
✔️ Увеличение показателя безопасности выполнения на 10.8% и эффективности выполнения на 19.8% в задачах навигации дронов
✔️ Улучшение безопасности на 20.4% для задач манипуляции объектами

🔺 Общие выводы

Обе работы демонстрируют перспективность использования линейной временной логики (LTL) для автоматизации планирования и выполнения сложных задач. Методы, такие как цепочки рассуждений и ограниченное декодирование, помогают обеспечить безопасность, интерпретируемость и точность выполнения

Основные ограничения связаны с:
✔️ Зависимостью от зафиксированных навыков и ограниченного набора данных для обучения
✔️ Ограниченной гибкостью в обработке динамических изменений в условиях выполнения задач

Тем не менее, интеграция LTL с крупными языковыми моделями открывает возможности для создания универсальных и надежных планировщиков для роботизированных систем

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Всем привет!🔥

📆 Завтра (27 декабря) в 16:00 на заключительной встрече в этом году Анатолий Онищенко расскажет про

Использование графового описания сцены при планировании с LLM

Сначала кратко рассмотрим подходы к планированию с использованием LLM, такие как ReAct и DELTA

Далее перейдём к методам, использующим графовое представление сцены:

🔺SayPlan: генерирует план, предоставляя LLM текстовое описание API и графа, затем использует граф для проверки плана и получения обратной связи для корректировки
🔺VeriGraph: строит граф сцены по изображению и проверяет решение с помощью визуальных языковых моделей (VLM)

Кроме того, отдельно выделим подходы для планирования и обновления графов сцены:

🔺Multi-Modal 3D Scene Graph Updater: обновляет графы сцены, используя данные из разных источников
🔺SWIFTSAGE: применяет два модуля LLM для быстрого и для продуманного планирования

Статьи:
1. ReAct: Synergizing Reasoning and Acting in Language Models
2. DELTA: Decomposed Efficient Long-Term Robot Task Planning using Large Language Models
3. SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning
4. VeriGraph: Scene Graphs for Execution Verifiable Robot Planning
5. Multi-Modal 3D Scene Graph Updater for Shared and Dynamic Environments
6. SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Всем привет в Новом году!🔥

📆Завтра (10 января) в 16:00
Алсу Сагирова
расскажет про

Механизмы коммуникации и кооперации агентов в задачах multi-agent reinforcement learning (MARL)

Многоагентное обучение с подкреплением (MARL) эффективно применяется для решения кооперативных и соревновательных задач для мультиагентных систем в различных средах. Одной из проблем MARL является необходимость явного прогнозирования поведения агентов для обеспечения их кооперации. Мы рассмотрим два подхода, использующих знания агентов в неявном виде для их коммуникации и совместного решения задач

Статьи:
1. Scalable Multi-Agent Model-Based Reinforcement Learning
2. Recurrent Memory Improves Multi-agent Pathfinding

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍31😱1
Всем привет!

На этой неделе встречи не будет
😭7
Всем привет!🔥

📆Завтра (24 января) в 16:00
Григорий Бухтуев
расскажет про

Интеграцию больших языковых моделей в обучение с подкреплением для решения сложных задач в робототехнике

При планировании с LLM необходимо иметь заранее готовую библиотеку навыков, которые может выполнить агент и из которых формируется план. Это ограничивает применение в задачах, для которых таких навыков ещё нет. На встрече рассмотрим как работы, которые частично решают эту проблему, так и в целом улучшающие качество планирования

Статьи:
1. Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation
2. Eurekaverse: Environment Curriculum Generation via Large Language Models
3. SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation
4. Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotic Tasks
5. GenSim: Generating Robotic Simulation Tasks via Large Language Models
6. GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍4
Всем привет!🔥

📆Сегодня (7 февраля) в 16:00
Дарья Гиталова
расскажет про

Возможности повышения надежности ответов LLM: анализ неопределенности и способы её уменьшения

Рассмотрим исследование LLM в контексте следования инструкциям, обсудим методы разложения неопределенности, включая Input Clarification Ensembling, позволяющий уточнять вводные данные для уменьшения эпистемической неопределенности. Также обсудим как Random Walk Laplacian и графовая структура при построение направленной логики вывода модели могут помочь в задачах количественной оценки её неопределенности

Статьи:
1. Do LLMs Estimate Uncertainty Well In Instruction-Following?
2. Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling
3. LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍1
Всем привет!

Сегодня встречи не будет
🤯6😭6🗿2
Всем привет!🔥

📆В эту пятницу (21 февраля) в 16:00
Егор Черепанов
разберёт статью

Flow Q-Learning

Рассмотрим Flow Matching в контексте Offline RL Q-Learning, обсудим трудности, которые могут возникнуть при наивном применении Flow Matching, и предложенное решение этой проблемы с помощью техники one-step guidance. Этот подход включает обучение отдельных one-step стратегий с использованием RL и потоковой стратегии с BC, что позволяет избежать сложных проблем, связанных с guiding итеративных генеративных моделей, таких как recursive backpropagation

Статья:
1. Flow Q-Learning

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12🌭2🥴1
Всем привет!🔥

📆Завтра (28 февраля) в 16:00
Анастасия Иванова
расскажет про

Beyond probability: Dempster-Shafer theory for AI and uncertainty modeling

На встрече мы обсудим теорию Депмстера-Шафера (DST) как альтернативу классическим вероятностным методам для оценки неопределённости и принятии решений на его основе. DST позволяет явно моделировать неопределённость и неполное знание с помощью распределения «доверия» (belief functions). Мы рассмотрим в чём отличия DST от байесовского подхода и в каких задачах DST оказывается полезной для AI на примерах трёх статей:

1. PrefCLM: Enhancing Preference-based Reinforcement Learning with Crowdsourced Large Language Models
2. Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval
3. Calibrating LLMs with Information Theoretic Evidential Deep Learning

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9
Всем привет!🔥

📆Завтра (7 марта) в 16:00
Эллина Алёшина
расскажет про

Attacks on LLM-controlled robots

Обсудим атаки на LLM-агентов, направленные на манипуляцию их поведением и побуждение к выполнению вредоносных физических действий. Рассмотрим, как слабые места в механизмах выравнивания моделей позволяют злоумышленникам изменять поведение LLM превращая их в потенциально опасные системы

Статьи:
1. BadRobot: Jailbreaking Embodied LLMs in the Physical World
2. Jailbreaking LLM-Controlled Robots
3. A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity
4. Stealth edits to large language models

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥2👏1
Всем привет!🔥

📆Завтра (14 марта) в 16:00
Даниил Зелезецкий
расскажет про

Применение техники дистилляции для эффективного трансфера знаний от трансформерных архитектур к более простым моделям

Обсудим подход Actor-Learner Distillation (ALD), позволяющий качественно обучать легковесные рекуррентные модели путём дистилляции знаний от больших трансформеров. Рассмотрим результативность этого метода на POMPD средах, а также обсудим практические преимущества этого подхода в задачах робототехники

Статьи:
1. Efficient Transformers in Reinforcement Learning Using Actor-Learner Distillation

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Всем привет!🔥

📆Сегодня (21 марта) в 16:00
Татьяна Земскова
и Алексей Староверов расскажут про

Дообучение VLA с помощью обучения с подкреплением

В основе VLA (Vision-Language-Action) модели обычно лежит LLM/LVLM, которая дообучается на заранее собранных наборах данных с помощью обучения с учителем. Дальнейшее дообучение VLA в среде с помощью обучения с подкреплением представляет интерес, т.к. позволило бы повысить устойчивость модели к новым средам. На встрече обсудим, какие особенности имеют VLA при дообучении в среде с помощью RL и рассмотрим методы iRe-VLA и PA-RL, позволяющие повысить устойчивость обучения с подкреплением в среде для VLA

Статьи:
1. Improving Vision-Language-Action Model with Online Reinforcement Learning
2. Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍2🐳2
Всем привет!

Сегодня встречи не будет
😢14🐳1
Всем привет!🔥

📆Сегодня (11 апреля) в 16:00
Никита Качаев
расскажет про

Трансформерные модели для роботизированной 3D манипуляции

На текущий момент ключевыми направлениями исследований в данной области являются многозадачность, обобщение на ранее не встречающиеся сценарии и точная манипуляция. Помимо этого, в последнее время набирает популярность тема памяти в задачах робототехники. В ряде недавно вышедших работ были представлены гибридные трансформерные модели PerAct, RVT-2, ARP+ и SAM2Act, которые благодаря использованию продвинутых perception модулей и трансформерных архитектур способны эффективно решать многие сложные задачи. В докладе основной фокус будет сделан на работе [1]

Статьи:
1. SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation
2. RVT-2: Learning Precise Manipulation from Few Demonstrations
3. SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
4. Autoregressive Action Sequence Learning for Robotic Manipulation
5. SAM 2: Segment Anything in Images and Videos

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👏2🫡2🤡1🐳1
Всем привет!🔥

📆Сегодня (18 апреля) в 16:00
Данил Григорьев
расскажет про

VLA: коррекция ошибок и усиление через обучение с подкреплением

В последнее время активно развиваются Vision-Language-Action модели (VLA) для роботизированной манипуляции. Основные задачи: обработка ошибок, адаптация к новым сценариям и оптимизация производительности. Работы [1-4] предлагают новые подходы к решению этих проблем. SC-VLA [1] использует двухсистемную архитектуру с механизмом самокоррекции. RoboDexVLM [2] расширяет возможности VLA для ловкой манипуляции с долгосрочным планированием. LIV [3] объединяет обучение представлениям и функций вознаграждения из видео без действий. RPD [4] применяет дистилляцию стратегий с RL для преобразования обобщенных VLA в высокопроизводительные экспертные модели. Эти методы показывают, как сочетание коррекции ошибок и обучения с подкреплением улучшает возможности VLA моделей

Статьи:
1. A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation
2. RoboDexVLM: Visual Language Model-Enabled Task Planning and Motion Control for Dexterous Robot Manipulation
3. LIV: Language-Image Representations and Rewards for Robotic Control
4. Refined Policy Distillation: From VLA Generalists to RL Experts

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7😁2😨1
Всем привет!🔥

📆Сегодня (23 мая) в 16:00
Егор Черепанов
расскажет про

DBGFQN: компактный трансформер с двунаправленной памятью для POMDP

В частично наблюдаемых средах агенту доступна лишь ограниченная информация о состоянии мира, поэтому для принятия решений он должен опираться на память о прошлом. Классические RNN — лёгкие, но плохо запоминают долгосрочные зависимости; трансформеры справляются с этим лучше, однако становятся громоздкими: до 80 % параметров приходится на feed-forward блоки. Недавняя работа DBGFQN [1] показывает, что эти блоки можно вовсе убрать и заменить всего одним слоем двунаправленного GRU после self-attention. Это снижает число параметров на 25 %, ускоряет обучение и существенно повышает качество — вплоть до +80 п.п. успеха в сложных задачах с частичной наблюдаемостью

На встрече обсудим:
⚫️Почему FFN-блок не обязателен и где он даже вредит
⚫️Как двунаправленная GRU дополняет контекст на текущем шаге;
⚫️Практические выводы для роботов и edge-RL: меньше вес — дольше батарея

Статьи:
1. Bi-directional Recurrence Improves Transformer in Partially Observable Markov Decision Processes

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10🥴1
Всем привет!🔥

📆В эту пятницу (6 июня) в 17:00 Дарья Гиталова расскажет про

Подходы к измерению и контролю неопределённости в planning- и reasoning-сценариях с LLM

Большие языковые модели всё чаще используются для планирования и генерации формальных знаний — от логических доказательств до инструкций для роботов. Однако их вывод сопровождается различными формами неопределённости, которые важно уметь выявлять и контролировать

В докладе рассматриваются современные методы выявления и калибровки неопределённости LLM — от вероятностных контекстно-свободных грамматик (PCFG) до attention-based маргинализации цепочек рассуждений. Обсудим, как грамматические структуры помогают предсказывать провалы в логических задачах, почему роботы «теряются» при расплывчатых референциях в пользовательских инструкциях и как количество примеров влияет на эпистемическую неопределённость в сложных задачах

Статьи:
1. REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?
2. Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
3. Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?
4. Language Model Uncertainty Quantification with Attention Chain

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥6
Всем привет!🔥

📆В эту пятницу (4 июля) в 17:00 Алиса Петрова расскажет про

Как научить LLM задавать уточняющие вопросы и работать с неоднозначными инструкциями?

Современные LLM всё чаще используются в диалоговых агентах и инструментах автоматизации, но их работа часто страдает из-за неясных или двусмысленных запросов. Как научить модели распознавать неопределённость и просить уточнения? Какие типы неоднозначностей мешают им чаще всего? И как самоисправление помогает в использовании инструментов?

В докладе разберём ключевые подходы к генерации уточняющих вопросов — от предсказания будущих реплик в диалоге до классификации типов неоднозначностей. Обсудим, почему LLM часто молчат вместо того, чтобы переспросить, как моделировать контекст для лучшего уточнения и какие методы self-correction улучшают работу с инструментами

Статьи:
1. Learning to Ask: When LLM Agents Meet Unclear Instruction
2. Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions
3. Clarifying Ambiguities: on the Role of Ambiguity Types in Prompting Methods for Clarification Generation
4. AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3
Всем привет!🔥

📆Сегодня (8 августа) в 17:00 Даниил Казачков расскажет про то

Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов)

Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью?

В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов

Статьи:
1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models
3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models

🍿Ссылка на подключение

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91