Всем привет!🔥
Итоги встречи 15.11.2024
(презентация|запись)
#RL #Memory #LLM #VLM
На встрече были разобраны новые работы по использованию механизмов памяти при принятии решений в контексте VLM и RL агентов
🔺 Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
В данной работе рассматривается VLM агент, решающий сложные задачи в среде Minecraft
Авторы считают, что существующие агенты сталкиваются с трудностями при выполнении long-horizon задач в open-world сеттинге в связи с тем, что им не хватает знания о мире и его мультимодального описания
Для решения этих проблем авторы предлагают Hybrid Multimodal Memory (HMM) модуль, который:
✔️ преобразует знание в Hierarchical Directed Knowledge Graph, позволяющий явно представить знание о мире и изучить его
✔️ суммаризует историческую информацию в Abstracted Multimodal Experience Pool, который передает агентам дополнительную информацию для in-context обучения
Вместе с Knowledge-Guided Planner и Experience-Driven Reflector модулями, необходимыми для лучшего планирования и рефлексии агента для long-horizon задач, HMM образует мультимодального агента Optimus-1
Предложенный подход позволяет нивелировать различие между топовыми проприетарными и open-sourced VLM моделямями и достичь результатов, сравнимых с человеческими, при решении задач в Minecraft
🔺 AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning
Механизмы памяти помогают оптимизировать стратегию в постановке задачи с разреженными функциями вознаграждения
AdaMemento — адаптивный memory-enhanced RL фреймворк, позволяющий решать такие задачи. Он состоит из Memory-reflection module, позволяющего использовать как положительный, так и отрицательный опыт, обучаясь использовать локальные стратегии на основании текущих состояний, и Coarse-fine distinction module, позволяющего эффективно собирать информативные траектории в память за счет Fine-grained intrinsic-motivation paradigm, различающей небольшие различия (нюансы) в похожих состояниях
Использование данного подхода позволило получить существенно лучшие результаты по сравнению с другими бейзлайнами на такой тяжелой задаче как Atari/Montezuma's Revenge
🔺 Общие выводы
В обеих работах используются модули внешней памяти, позволяющие подкрепить принятие решения агента дополнительной информацией, что позволяет добиваться лучших результатов по сравнению с методами без таких модулей
Подписаться⤵️
Embodied AI Reading Club
Итоги встречи 15.11.2024
(презентация|запись)
#RL #Memory #LLM #VLM
На встрече были разобраны новые работы по использованию механизмов памяти при принятии решений в контексте VLM и RL агентов
В данной работе рассматривается VLM агент, решающий сложные задачи в среде Minecraft
Авторы считают, что существующие агенты сталкиваются с трудностями при выполнении long-horizon задач в open-world сеттинге в связи с тем, что им не хватает знания о мире и его мультимодального описания
Для решения этих проблем авторы предлагают Hybrid Multimodal Memory (HMM) модуль, который:
Вместе с Knowledge-Guided Planner и Experience-Driven Reflector модулями, необходимыми для лучшего планирования и рефлексии агента для long-horizon задач, HMM образует мультимодального агента Optimus-1
Предложенный подход позволяет нивелировать различие между топовыми проприетарными и open-sourced VLM моделямями и достичь результатов, сравнимых с человеческими, при решении задач в Minecraft
Механизмы памяти помогают оптимизировать стратегию в постановке задачи с разреженными функциями вознаграждения
AdaMemento — адаптивный memory-enhanced RL фреймворк, позволяющий решать такие задачи. Он состоит из Memory-reflection module, позволяющего использовать как положительный, так и отрицательный опыт, обучаясь использовать локальные стратегии на основании текущих состояний, и Coarse-fine distinction module, позволяющего эффективно собирать информативные траектории в память за счет Fine-grained intrinsic-motivation paradigm, различающей небольшие различия (нюансы) в похожих состояниях
Использование данного подхода позволило получить существенно лучшие результаты по сравнению с другими бейзлайнами на такой тяжелой задаче как Atari/Montezuma's Revenge
В обеих работах используются модули внешней памяти, позволяющие подкрепить принятие решения агента дополнительной информацией, что позволяет добиваться лучших результатов по сравнению с методами без таких модулей
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🗿1
Всем привет!🔥
Итоги встречи 22.11.2024 (презентация|запись)
#LLM #LTL #Planning
На встрече были разобраны подходы к использованию временной логики для формальных спецификаций и планирования
🔺 CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning
В данной работе представлен подход CoT-TL (Chain-of-Thought for Temporal Logic), позволяющий переводить инструкции на естественном языке в формальные спецификации линейной временной логики (LTL) для использования в планировании для автономных агентов
Основные модули системы:
✔️ Модуль семантической разметки анализирует текстовые инструкции, выделяя роли слов (например, действие, цель, путь), что помогает точнее интерпретировать задания
✔️ Модуль генерации LTL использует цепочки рассуждений (Chain-of-Thought) для пошагового преобразования текстовых описаний в формулы LTL, что повышает интерпретируемость и точность
✔️ Модуль проверки моделей проверяет синтаксическую корректность формул LTL и их применимость с помощью автоматов Бюхи.
Эксперименты на трех наборах данных (Drone Planning, CleanUp World, Pick-and-Place) показали:
✔️ Точность перевода текстовых инструкций в LTL: 79.6% для Drone Planning, 91.7% для CleanUp World и 90.0% для Pick-and-Place
✔️ CoT-TL на базе GPT-4 показал наивысшую точность среди существующих методов при ограниченных данных, превзойдя альтернативы, не использующие обучение (на 10–15% выше).
🔺 SELP: Generating Safe and Efficient Task Plans for Robot Agents with Large Language Models
Работа посвящена созданию безопасных и эффективных планов для роботизированных агентов с использованием больших языковых моделей (LLM). Предложен подход SELP (Safe Efficient LLM Planner), который включает три ключевых механизма:
✔️ Механизм голосования эквивалентности проверяет логическую эквивалентность нескольких формул LTL, выбирая наиболее вероятную
✔️ Ограниченное декодирование преобразует LTL в автоматы Бюхи для проверки последовательности действий, исключая небезопасные шаги
✔️ Специализированное дообучение позволяет LLM генерировать планы, оптимизированные по безопасности и эффективности
Эксперименты в задачах навигации дронов и манипуляции роботами продемонстрировали:
✔️ Увеличение показателя безопасности выполнения на 10.8% и эффективности выполнения на 19.8% в задачах навигации дронов
✔️ Улучшение безопасности на 20.4% для задач манипуляции объектами
🔺 Общие выводы
Обе работы демонстрируют перспективность использования линейной временной логики (LTL) для автоматизации планирования и выполнения сложных задач. Методы, такие как цепочки рассуждений и ограниченное декодирование, помогают обеспечить безопасность, интерпретируемость и точность выполнения
Основные ограничения связаны с:
✔️ Зависимостью от зафиксированных навыков и ограниченного набора данных для обучения
✔️ Ограниченной гибкостью в обработке динамических изменений в условиях выполнения задач
Тем не менее, интеграция LTL с крупными языковыми моделями открывает возможности для создания универсальных и надежных планировщиков для роботизированных систем
Подписаться⤵️
Embodied AI Reading Club
Итоги встречи 22.11.2024 (презентация|запись)
#LLM #LTL #Planning
На встрече были разобраны подходы к использованию временной логики для формальных спецификаций и планирования
В данной работе представлен подход CoT-TL (Chain-of-Thought for Temporal Logic), позволяющий переводить инструкции на естественном языке в формальные спецификации линейной временной логики (LTL) для использования в планировании для автономных агентов
Основные модули системы:
Эксперименты на трех наборах данных (Drone Planning, CleanUp World, Pick-and-Place) показали:
Работа посвящена созданию безопасных и эффективных планов для роботизированных агентов с использованием больших языковых моделей (LLM). Предложен подход SELP (Safe Efficient LLM Planner), который включает три ключевых механизма:
Эксперименты в задачах навигации дронов и манипуляции роботами продемонстрировали:
Обе работы демонстрируют перспективность использования линейной временной логики (LTL) для автоматизации планирования и выполнения сложных задач. Методы, такие как цепочки рассуждений и ограниченное декодирование, помогают обеспечить безопасность, интерпретируемость и точность выполнения
Основные ограничения связаны с:
Тем не менее, интеграция LTL с крупными языковыми моделями открывает возможности для создания универсальных и надежных планировщиков для роботизированных систем
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Всем привет!🔥
📆 Завтра (27 декабря) в 16:00 на заключительной встрече в этом году Анатолий Онищенко расскажет про
Использование графового описания сцены при планировании с LLM
Сначала кратко рассмотрим подходы к планированию с использованием LLM, такие как ReAct и DELTA
Далее перейдём к методам, использующим графовое представление сцены:
🔺 SayPlan: генерирует план, предоставляя LLM текстовое описание API и графа, затем использует граф для проверки плана и получения обратной связи для корректировки
🔺 VeriGraph: строит граф сцены по изображению и проверяет решение с помощью визуальных языковых моделей (VLM)
Кроме того, отдельно выделим подходы для планирования и обновления графов сцены:
🔺 Multi-Modal 3D Scene Graph Updater: обновляет графы сцены, используя данные из разных источников
🔺 SWIFTSAGE: применяет два модуля LLM для быстрого и для продуманного планирования
Статьи:
1. ReAct: Synergizing Reasoning and Acting in Language Models
2. DELTA: Decomposed Efficient Long-Term Robot Task Planning using Large Language Models
3. SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning
4. VeriGraph: Scene Graphs for Execution Verifiable Robot Planning
5. Multi-Modal 3D Scene Graph Updater for Shared and Dynamic Environments
6. SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Использование графового описания сцены при планировании с LLM
Сначала кратко рассмотрим подходы к планированию с использованием LLM, такие как ReAct и DELTA
Далее перейдём к методам, использующим графовое представление сцены:
Кроме того, отдельно выделим подходы для планирования и обновления графов сцены:
Статьи:
1. ReAct: Synergizing Reasoning and Acting in Language Models
2. DELTA: Decomposed Efficient Long-Term Robot Task Planning using Large Language Models
3. SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning
4. VeriGraph: Scene Graphs for Execution Verifiable Robot Planning
5. Multi-Modal 3D Scene Graph Updater for Shared and Dynamic Environments
6. SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Всем привет в Новом году!🔥
📆 Завтра (10 января) в 16:00
Алсу Сагирова расскажет про
Механизмы коммуникации и кооперации агентов в задачах multi-agent reinforcement learning (MARL)
Многоагентное обучение с подкреплением (MARL) эффективно применяется для решения кооперативных и соревновательных задач для мультиагентных систем в различных средах. Одной из проблем MARL является необходимость явного прогнозирования поведения агентов для обеспечения их кооперации. Мы рассмотрим два подхода, использующих знания агентов в неявном виде для их коммуникации и совместного решения задач
Статьи:
1. Scalable Multi-Agent Model-Based Reinforcement Learning
2. Recurrent Memory Improves Multi-agent Pathfinding
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Алсу Сагирова расскажет про
Механизмы коммуникации и кооперации агентов в задачах multi-agent reinforcement learning (MARL)
Многоагентное обучение с подкреплением (MARL) эффективно применяется для решения кооперативных и соревновательных задач для мультиагентных систем в различных средах. Одной из проблем MARL является необходимость явного прогнозирования поведения агентов для обеспечения их кооперации. Мы рассмотрим два подхода, использующих знания агентов в неявном виде для их коммуникации и совместного решения задач
Статьи:
1. Scalable Multi-Agent Model-Based Reinforcement Learning
2. Recurrent Memory Improves Multi-agent Pathfinding
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍3❤1😱1
Всем привет!🔥
📆 Завтра (24 января) в 16:00
Григорий Бухтуев расскажет про
Интеграцию больших языковых моделей в обучение с подкреплением для решения сложных задач в робототехнике
При планировании с LLM необходимо иметь заранее готовую библиотеку навыков, которые может выполнить агент и из которых формируется план. Это ограничивает применение в задачах, для которых таких навыков ещё нет. На встрече рассмотрим как работы, которые частично решают эту проблему, так и в целом улучшающие качество планирования
Статьи:
1. Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation
2. Eurekaverse: Environment Curriculum Generation via Large Language Models
3. SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation
4. Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotic Tasks
5. GenSim: Generating Robotic Simulation Tasks via Large Language Models
6. GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Григорий Бухтуев расскажет про
Интеграцию больших языковых моделей в обучение с подкреплением для решения сложных задач в робототехнике
При планировании с LLM необходимо иметь заранее готовую библиотеку навыков, которые может выполнить агент и из которых формируется план. Это ограничивает применение в задачах, для которых таких навыков ещё нет. На встрече рассмотрим как работы, которые частично решают эту проблему, так и в целом улучшающие качество планирования
Статьи:
1. Policy Adaptation via Language Optimization: Decomposing Tasks for Few-Shot Imitation
2. Eurekaverse: Environment Curriculum Generation via Large Language Models
3. SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation
4. Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotic Tasks
5. GenSim: Generating Robotic Simulation Tasks via Large Language Models
6. GenSim2: Scaling Robot Data Generation with Multi-modal and Reasoning LLMs
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍4
Всем привет!🔥
📆 Сегодня (7 февраля) в 16:00
Дарья Гиталова расскажет про
Возможности повышения надежности ответов LLM: анализ неопределенности и способы её уменьшения
Рассмотрим исследование LLM в контексте следования инструкциям, обсудим методы разложения неопределенности, включая Input Clarification Ensembling, позволяющий уточнять вводные данные для уменьшения эпистемической неопределенности. Также обсудим как Random Walk Laplacian и графовая структура при построение направленной логики вывода модели могут помочь в задачах количественной оценки её неопределенности
Статьи:
1. Do LLMs Estimate Uncertainty Well In Instruction-Following?
2. Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling
3. LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Дарья Гиталова расскажет про
Возможности повышения надежности ответов LLM: анализ неопределенности и способы её уменьшения
Рассмотрим исследование LLM в контексте следования инструкциям, обсудим методы разложения неопределенности, включая Input Clarification Ensembling, позволяющий уточнять вводные данные для уменьшения эпистемической неопределенности. Также обсудим как Random Walk Laplacian и графовая структура при построение направленной логики вывода модели могут помочь в задачах количественной оценки её неопределенности
Статьи:
1. Do LLMs Estimate Uncertainty Well In Instruction-Following?
2. Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling
3. LLM Uncertainty Quantification through Directional Entailment Graph and Claim Level Response Augmentation
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1
Всем привет!🔥
📆 В эту пятницу (21 февраля) в 16:00
Егор Черепанов разберёт статью
Flow Q-Learning
Рассмотрим Flow Matching в контексте Offline RL Q-Learning, обсудим трудности, которые могут возникнуть при наивном применении Flow Matching, и предложенное решение этой проблемы с помощью техники one-step guidance. Этот подход включает обучение отдельных one-step стратегий с использованием RL и потоковой стратегии с BC, что позволяет избежать сложных проблем, связанных с guiding итеративных генеративных моделей, таких как recursive backpropagation
Статья:
1. Flow Q-Learning
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Егор Черепанов разберёт статью
Flow Q-Learning
Рассмотрим Flow Matching в контексте Offline RL Q-Learning, обсудим трудности, которые могут возникнуть при наивном применении Flow Matching, и предложенное решение этой проблемы с помощью техники one-step guidance. Этот подход включает обучение отдельных one-step стратегий с использованием RL и потоковой стратегии с BC, что позволяет избежать сложных проблем, связанных с guiding итеративных генеративных моделей, таких как recursive backpropagation
Статья:
1. Flow Q-Learning
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12🌭2🥴1
Всем привет!🔥
📆 Завтра (28 февраля) в 16:00
Анастасия Иванова расскажет про
Beyond probability: Dempster-Shafer theory for AI and uncertainty modeling
На встрече мы обсудим теорию Депмстера-Шафера (DST) как альтернативу классическим вероятностным методам для оценки неопределённости и принятии решений на его основе. DST позволяет явно моделировать неопределённость и неполное знание с помощью распределения «доверия» (belief functions). Мы рассмотрим в чём отличия DST от байесовского подхода и в каких задачах DST оказывается полезной для AI на примерах трёх статей:
1. PrefCLM: Enhancing Preference-based Reinforcement Learning with Crowdsourced Large Language Models
2. Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval
3. Calibrating LLMs with Information Theoretic Evidential Deep Learning
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Анастасия Иванова расскажет про
Beyond probability: Dempster-Shafer theory for AI and uncertainty modeling
На встрече мы обсудим теорию Депмстера-Шафера (DST) как альтернативу классическим вероятностным методам для оценки неопределённости и принятии решений на его основе. DST позволяет явно моделировать неопределённость и неполное знание с помощью распределения «доверия» (belief functions). Мы рассмотрим в чём отличия DST от байесовского подхода и в каких задачах DST оказывается полезной для AI на примерах трёх статей:
1. PrefCLM: Enhancing Preference-based Reinforcement Learning with Crowdsourced Large Language Models
2. Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval
3. Calibrating LLMs with Information Theoretic Evidential Deep Learning
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9
Всем привет!🔥
📆 Завтра (7 марта) в 16:00
Эллина Алёшина расскажет про
Attacks on LLM-controlled robots
Обсудим атаки на LLM-агентов, направленные на манипуляцию их поведением и побуждение к выполнению вредоносных физических действий. Рассмотрим, как слабые места в механизмах выравнивания моделей позволяют злоумышленникам изменять поведение LLM превращая их в потенциально опасные системы
Статьи:
1. BadRobot: Jailbreaking Embodied LLMs in the Physical World
2. Jailbreaking LLM-Controlled Robots
3. A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity
4. Stealth edits to large language models
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Эллина Алёшина расскажет про
Attacks on LLM-controlled robots
Обсудим атаки на LLM-агентов, направленные на манипуляцию их поведением и побуждение к выполнению вредоносных физических действий. Рассмотрим, как слабые места в механизмах выравнивания моделей позволяют злоумышленникам изменять поведение LLM превращая их в потенциально опасные системы
Статьи:
1. BadRobot: Jailbreaking Embodied LLMs in the Physical World
2. Jailbreaking LLM-Controlled Robots
3. A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity
4. Stealth edits to large language models
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥2👏1
Всем привет!🔥
📆 Завтра (14 марта) в 16:00
Даниил Зелезецкий расскажет про
Применение техники дистилляции для эффективного трансфера знаний от трансформерных архитектур к более простым моделям
Обсудим подход Actor-Learner Distillation (ALD), позволяющий качественно обучать легковесные рекуррентные модели путём дистилляции знаний от больших трансформеров. Рассмотрим результативность этого метода на POMPD средах, а также обсудим практические преимущества этого подхода в задачах робототехники
Статьи:
1. Efficient Transformers in Reinforcement Learning Using Actor-Learner Distillation
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Даниил Зелезецкий расскажет про
Применение техники дистилляции для эффективного трансфера знаний от трансформерных архитектур к более простым моделям
Обсудим подход Actor-Learner Distillation (ALD), позволяющий качественно обучать легковесные рекуррентные модели путём дистилляции знаний от больших трансформеров. Рассмотрим результативность этого метода на POMPD средах, а также обсудим практические преимущества этого подхода в задачах робототехники
Статьи:
1. Efficient Transformers in Reinforcement Learning Using Actor-Learner Distillation
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Всем привет!🔥
📆 Сегодня (21 марта) в 16:00
Татьяна Земскова и Алексей Староверов расскажут про
Дообучение VLA с помощью обучения с подкреплением
В основе VLA (Vision-Language-Action) модели обычно лежит LLM/LVLM, которая дообучается на заранее собранных наборах данных с помощью обучения с учителем. Дальнейшее дообучение VLA в среде с помощью обучения с подкреплением представляет интерес, т.к. позволило бы повысить устойчивость модели к новым средам. На встрече обсудим, какие особенности имеют VLA при дообучении в среде с помощью RL и рассмотрим методы iRe-VLA и PA-RL, позволяющие повысить устойчивость обучения с подкреплением в среде для VLA
Статьи:
1. Improving Vision-Language-Action Model with Online Reinforcement Learning
2. Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Татьяна Земскова и Алексей Староверов расскажут про
Дообучение VLA с помощью обучения с подкреплением
В основе VLA (Vision-Language-Action) модели обычно лежит LLM/LVLM, которая дообучается на заранее собранных наборах данных с помощью обучения с учителем. Дальнейшее дообучение VLA в среде с помощью обучения с подкреплением представляет интерес, т.к. позволило бы повысить устойчивость модели к новым средам. На встрече обсудим, какие особенности имеют VLA при дообучении в среде с помощью RL и рассмотрим методы iRe-VLA и PA-RL, позволяющие повысить устойчивость обучения с подкреплением в среде для VLA
Статьи:
1. Improving Vision-Language-Action Model with Online Reinforcement Learning
2. Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍2🐳2
Всем привет!🔥
📆 Сегодня (11 апреля) в 16:00
Никита Качаев расскажет про
Трансформерные модели для роботизированной 3D манипуляции
На текущий момент ключевыми направлениями исследований в данной области являются многозадачность, обобщение на ранее не встречающиеся сценарии и точная манипуляция. Помимо этого, в последнее время набирает популярность тема памяти в задачах робототехники. В ряде недавно вышедших работ были представлены гибридные трансформерные модели PerAct, RVT-2, ARP+ и SAM2Act, которые благодаря использованию продвинутых perception модулей и трансформерных архитектур способны эффективно решать многие сложные задачи. В докладе основной фокус будет сделан на работе [1]
Статьи:
1. SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation
2. RVT-2: Learning Precise Manipulation from Few Demonstrations
3. SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
4. Autoregressive Action Sequence Learning for Robotic Manipulation
5. SAM 2: Segment Anything in Images and Videos
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Никита Качаев расскажет про
Трансформерные модели для роботизированной 3D манипуляции
На текущий момент ключевыми направлениями исследований в данной области являются многозадачность, обобщение на ранее не встречающиеся сценарии и точная манипуляция. Помимо этого, в последнее время набирает популярность тема памяти в задачах робототехники. В ряде недавно вышедших работ были представлены гибридные трансформерные модели PerAct, RVT-2, ARP+ и SAM2Act, которые благодаря использованию продвинутых perception модулей и трансформерных архитектур способны эффективно решать многие сложные задачи. В докладе основной фокус будет сделан на работе [1]
Статьи:
1. SAM2Act: Integrating Visual Foundation Model with A Memory Architecture for Robotic Manipulation
2. RVT-2: Learning Precise Manipulation from Few Demonstrations
3. SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation
4. Autoregressive Action Sequence Learning for Robotic Manipulation
5. SAM 2: Segment Anything in Images and Videos
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👏2🫡2🤡1🐳1
Всем привет!🔥
📆 Сегодня (18 апреля) в 16:00
Данил Григорьев расскажет про
VLA: коррекция ошибок и усиление через обучение с подкреплением
В последнее время активно развиваются Vision-Language-Action модели (VLA) для роботизированной манипуляции. Основные задачи: обработка ошибок, адаптация к новым сценариям и оптимизация производительности. Работы [1-4] предлагают новые подходы к решению этих проблем. SC-VLA [1] использует двухсистемную архитектуру с механизмом самокоррекции. RoboDexVLM [2] расширяет возможности VLA для ловкой манипуляции с долгосрочным планированием. LIV [3] объединяет обучение представлениям и функций вознаграждения из видео без действий. RPD [4] применяет дистилляцию стратегий с RL для преобразования обобщенных VLA в высокопроизводительные экспертные модели. Эти методы показывают, как сочетание коррекции ошибок и обучения с подкреплением улучшает возможности VLA моделей
Статьи:
1. A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation
2. RoboDexVLM: Visual Language Model-Enabled Task Planning and Motion Control for Dexterous Robot Manipulation
3. LIV: Language-Image Representations and Rewards for Robotic Control
4. Refined Policy Distillation: From VLA Generalists to RL Experts
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Данил Григорьев расскажет про
VLA: коррекция ошибок и усиление через обучение с подкреплением
В последнее время активно развиваются Vision-Language-Action модели (VLA) для роботизированной манипуляции. Основные задачи: обработка ошибок, адаптация к новым сценариям и оптимизация производительности. Работы [1-4] предлагают новые подходы к решению этих проблем. SC-VLA [1] использует двухсистемную архитектуру с механизмом самокоррекции. RoboDexVLM [2] расширяет возможности VLA для ловкой манипуляции с долгосрочным планированием. LIV [3] объединяет обучение представлениям и функций вознаграждения из видео без действий. RPD [4] применяет дистилляцию стратегий с RL для преобразования обобщенных VLA в высокопроизводительные экспертные модели. Эти методы показывают, как сочетание коррекции ошибок и обучения с подкреплением улучшает возможности VLA моделей
Статьи:
1. A Self-Correcting Vision-Language-Action Model for Fast and Slow System Manipulation
2. RoboDexVLM: Visual Language Model-Enabled Task Planning and Motion Control for Dexterous Robot Manipulation
3. LIV: Language-Image Representations and Rewards for Robotic Control
4. Refined Policy Distillation: From VLA Generalists to RL Experts
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7😁2😨1
Всем привет!🔥
📆 Сегодня (23 мая) в 16:00
Егор Черепанов расскажет про
DBGFQN: компактный трансформер с двунаправленной памятью для POMDP
В частично наблюдаемых средах агенту доступна лишь ограниченная информация о состоянии мира, поэтому для принятия решений он должен опираться на память о прошлом. Классические RNN — лёгкие, но плохо запоминают долгосрочные зависимости; трансформеры справляются с этим лучше, однако становятся громоздкими: до 80 % параметров приходится на feed-forward блоки. Недавняя работа DBGFQN [1] показывает, что эти блоки можно вовсе убрать и заменить всего одним слоем двунаправленного GRU после self-attention. Это снижает число параметров на 25 %, ускоряет обучение и существенно повышает качество — вплоть до +80 п.п. успеха в сложных задачах с частичной наблюдаемостью
На встрече обсудим:
⚫️ Почему FFN-блок не обязателен и где он даже вредит
⚫️ Как двунаправленная GRU дополняет контекст на текущем шаге;
⚫️ Практические выводы для роботов и edge-RL: меньше вес — дольше батарея
Статьи:
1. Bi-directional Recurrence Improves Transformer in Partially Observable Markov Decision Processes
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Егор Черепанов расскажет про
DBGFQN: компактный трансформер с двунаправленной памятью для POMDP
В частично наблюдаемых средах агенту доступна лишь ограниченная информация о состоянии мира, поэтому для принятия решений он должен опираться на память о прошлом. Классические RNN — лёгкие, но плохо запоминают долгосрочные зависимости; трансформеры справляются с этим лучше, однако становятся громоздкими: до 80 % параметров приходится на feed-forward блоки. Недавняя работа DBGFQN [1] показывает, что эти блоки можно вовсе убрать и заменить всего одним слоем двунаправленного GRU после self-attention. Это снижает число параметров на 25 %, ускоряет обучение и существенно повышает качество — вплоть до +80 п.п. успеха в сложных задачах с частичной наблюдаемостью
На встрече обсудим:
Статьи:
1. Bi-directional Recurrence Improves Transformer in Partially Observable Markov Decision Processes
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10🥴1
Всем привет!🔥
📆 В эту пятницу (6 июня) в 17:00 Дарья Гиталова расскажет про
Подходы к измерению и контролю неопределённости в planning- и reasoning-сценариях с LLM
Большие языковые модели всё чаще используются для планирования и генерации формальных знаний — от логических доказательств до инструкций для роботов. Однако их вывод сопровождается различными формами неопределённости, которые важно уметь выявлять и контролировать
В докладе рассматриваются современные методы выявления и калибровки неопределённости LLM — от вероятностных контекстно-свободных грамматик (PCFG) до attention-based маргинализации цепочек рассуждений. Обсудим, как грамматические структуры помогают предсказывать провалы в логических задачах, почему роботы «теряются» при расплывчатых референциях в пользовательских инструкциях и как количество примеров влияет на эпистемическую неопределённость в сложных задачах
Статьи:
1. REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?
2. Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
3. Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?
4. Language Model Uncertainty Quantification with Attention Chain
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Подходы к измерению и контролю неопределённости в planning- и reasoning-сценариях с LLM
Большие языковые модели всё чаще используются для планирования и генерации формальных знаний — от логических доказательств до инструкций для роботов. Однако их вывод сопровождается различными формами неопределённости, которые важно уметь выявлять и контролировать
В докладе рассматриваются современные методы выявления и калибровки неопределённости LLM — от вероятностных контекстно-свободных грамматик (PCFG) до attention-based маргинализации цепочек рассуждений. Обсудим, как грамматические структуры помогают предсказывать провалы в логических задачах, почему роботы «теряются» при расплывчатых референциях в пользовательских инструкциях и как количество примеров влияет на эпистемическую неопределённость в сложных задачах
Статьи:
1. REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?
2. Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
3. Uncertainty Unveiled: Can Exposure to More In-context Examples Mitigate Uncertainty for Large Language Models?
4. Language Model Uncertainty Quantification with Attention Chain
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥6
Всем привет!🔥
📆 В эту пятницу (4 июля) в 17:00 Алиса Петрова расскажет про
Как научить LLM задавать уточняющие вопросы и работать с неоднозначными инструкциями?
Современные LLM всё чаще используются в диалоговых агентах и инструментах автоматизации, но их работа часто страдает из-за неясных или двусмысленных запросов. Как научить модели распознавать неопределённость и просить уточнения? Какие типы неоднозначностей мешают им чаще всего? И как самоисправление помогает в использовании инструментов?
В докладе разберём ключевые подходы к генерации уточняющих вопросов — от предсказания будущих реплик в диалоге до классификации типов неоднозначностей. Обсудим, почему LLM часто молчат вместо того, чтобы переспросить, как моделировать контекст для лучшего уточнения и какие методы self-correction улучшают работу с инструментами
Статьи:
1. Learning to Ask: When LLM Agents Meet Unclear Instruction
2. Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions
3. Clarifying Ambiguities: on the Role of Ambiguity Types in Prompting Methods for Clarification Generation
4. AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Как научить LLM задавать уточняющие вопросы и работать с неоднозначными инструкциями?
Современные LLM всё чаще используются в диалоговых агентах и инструментах автоматизации, но их работа часто страдает из-за неясных или двусмысленных запросов. Как научить модели распознавать неопределённость и просить уточнения? Какие типы неоднозначностей мешают им чаще всего? И как самоисправление помогает в использовании инструментов?
В докладе разберём ключевые подходы к генерации уточняющих вопросов — от предсказания будущих реплик в диалоге до классификации типов неоднозначностей. Обсудим, почему LLM часто молчат вместо того, чтобы переспросить, как моделировать контекст для лучшего уточнения и какие методы self-correction улучшают работу с инструментами
Статьи:
1. Learning to Ask: When LLM Agents Meet Unclear Instruction
2. Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions
3. Clarifying Ambiguities: on the Role of Ambiguity Types in Prompting Methods for Clarification Generation
4. AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3
Всем привет!🔥
📆 Сегодня (8 августа) в 17:00 Даниил Казачков расскажет про то
Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов)
Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью?
В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов
Статьи:
1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models
3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models
🍿 Ссылка на подключение
Подписаться⤵️
Embodied AI Reading Club
Как ускорить мультимодальные модели без потери качества (эффективное сокращение визуальных токенов)
Современные мультимодальные модели способны хорошо обрабатывать тексты, изображения и видео. Но за эту универсальность приходится платить: за счет большего числа токенов от фото-видео данных, растет необходимость в больших вычислительных ресурсах, падает скорость инференса. Можно ли уменьшить количество визуальных токенов, не жертвуя точностью?
В докладе разберём ключевые подходы к сжатию визуальной информации в LLM-пайплайне: от удаления малозначимых токенов до их кластеризации и отбора максимально разнообразного подмножества. Обсудим, как решается задача отбора токенов без обучения и почему классические метрики важности не работают в эгоцентричных видео. Покажем, как архитектуры вроде PACT, EgoPrune, DivPrune и HiPrune делают визуально-языковые модели быстрее и легче, сохраняя при этом высокую точность на десятках датасетов
Статьи:
1. DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models
2. PACT: Pruning and Clustering-Based Token Reduction for Faster Visual Language Models
3. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent
4. HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models
Подписаться
Embodied AI Reading Club
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤1