qwen_ft.gif
37.2 MB
EmbRACE-3K или VirtualHome на стероидах
Довольно сырая, но вызывающая интерес работа
Авторы подметили, что VLMки, неплохо справляющиеся с задачами по картинкам и видео, не умеют из коробки в embodied задачи. Связывают это со способом обучения (что неудивительно) и выделяют три проблемы:
⚫️ VLMки не умеют в эксплорэйшн — модели больше обращают внимание на текущие визуальные наблюдения и плохо справляются с долгосрочным планированием
⚫️ VLMки не умеют учитывать позу — модели начинают плохо работать с пространственными отношениями, если агент двигается
⚫️ VLMки забывают цель — модели часто не переносят намерение (intent) за пределы текущего фрейма
Для того чтобы тестировать способности VLMок авторы собрали 3000 траектории с языковыми инструкциями в симуляторе на движке Unreal Engine. Протестировали GPT-4o, Gemini 2.5 Pro и Qwen2.5-VL-7B в zero-shot и показали, что справляются они с задачами плохо, но дообучение в формате SFT+GRPO на собранных данных дает хороший прирост
Из плюсов: траектории размечены так, что к каждому действию есть «рассуждение» почему это действие было выполнено
Из минусов: дискретная среда с небольшим набором действий (WASD + Open, Pick, Drop)
На гифке демо с дообученной Qwen2.5-VL-7B
#vlm #embodied
Довольно сырая, но вызывающая интерес работа
Авторы подметили, что VLMки, неплохо справляющиеся с задачами по картинкам и видео, не умеют из коробки в embodied задачи. Связывают это со способом обучения (что неудивительно) и выделяют три проблемы:
Для того чтобы тестировать способности VLMок авторы собрали 3000 траектории с языковыми инструкциями в симуляторе на движке Unreal Engine. Протестировали GPT-4o, Gemini 2.5 Pro и Qwen2.5-VL-7B в zero-shot и показали, что справляются они с задачами плохо, но дообучение в формате SFT+GRPO на собранных данных дает хороший прирост
Из плюсов: траектории размечены так, что к каждому действию есть «рассуждение» почему это действие было выполнено
Из минусов: дискретная среда с небольшим набором действий (WASD + Open, Pick, Drop)
На гифке демо с дообученной Qwen2.5-VL-7B
#vlm #embodied
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👏2❤1👍1