Embodied AI Reading Club
454 subscribers
18 photos
39 links
Канал книжного клуба команды Embodied agents Лаборатории Cognitive AI Systems AIRI
加入频道
Всем привет!🔥

Итоги встречи 15.11.2024
(презентация|запись)
#RL #Memory #LLM #VLM

На встрече были разобраны новые работы по использованию механизмов памяти при принятии решений в контексте VLM и RL агентов

🔺 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

В данной работе рассматривается VLM агент, решающий сложные задачи в среде Minecraft

Авторы считают, что существующие агенты сталкиваются с трудностями при выполнении long-horizon задач в open-world сеттинге в связи с тем, что им не хватает знания о мире и его мультимодального описания

Для решения этих проблем авторы предлагают Hybrid Multimodal Memory (HMM) модуль, который:
✔️ преобразует знание в Hierarchical Directed Knowledge Graph, позволяющий явно представить знание о мире и изучить его
✔️ суммаризует историческую информацию в Abstracted Multimodal Experience Pool, который передает агентам дополнительную информацию для in-context обучения

Вместе с Knowledge-Guided Planner и Experience-Driven Reflector модулями, необходимыми для лучшего планирования и рефлексии агента для long-horizon задач, HMM образует мультимодального агента Optimus-1

Предложенный подход позволяет нивелировать различие между топовыми проприетарными и open-sourced VLM моделямями и достичь результатов, сравнимых с человеческими, при решении задач в Minecraft

🔺 AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning

Механизмы памяти помогают оптимизировать стратегию в постановке задачи с разреженными функциями вознаграждения

AdaMemento — адаптивный memory-enhanced RL фреймворк, позволяющий решать такие задачи. Он состоит из Memory-reflection module, позволяющего использовать как положительный, так и отрицательный опыт, обучаясь использовать локальные стратегии на основании текущих состояний, и Coarse-fine distinction module, позволяющего эффективно собирать информативные траектории в память за счет Fine-grained intrinsic-motivation paradigm, различающей небольшие различия (нюансы) в похожих состояниях

Использование данного подхода позволило получить существенно лучшие результаты по сравнению с другими бейзлайнами на такой тяжелой задаче как Atari/Montezuma's Revenge

🔺 Общие выводы

В обеих работах используются модули внешней памяти, позволяющие подкрепить принятие решения агента дополнительной информацией, что позволяет добиваться лучших результатов по сравнению с методами без таких модулей

Подписаться⤵️
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🗿1