BaseLine

EmbRACE-3K или VirtualHome на стероидах

Довольно сырая, но вызывающая интерес работа

Авторы подметили, что VLMки, неплохо справляющиеся с задачами по картинкам и видео, не умеют из коробки в embodied задачи. Связывают это со способом обучения (что неудивительно) и выделяют три проблемы:

⚫️

VLMки не умеют в эксплорэйшн — модели больше обращают внимание на текущие визуальные наблюдения и плохо справляются с долгосрочным планированием

⚫️

VLMки не умеют учитывать позу — модели начинают плохо работать с пространственными отношениями, если агент двигается

⚫️

VLMки забывают цель — модели часто не переносят намерение (intent) за пределы текущего фрейма

Для того чтобы тестировать способности VLMок авторы собрали 3000 траектории с языковыми инструкциями в симуляторе на движке Unreal Engine. Протестировали GPT-4o, Gemini 2.5 Pro и Qwen2.5-VL-7B в zero-shot и показали, что справляются они с задачами плохо, но дообучение в формате SFT+GRPO на собранных данных дает хороший прирост

Из плюсов: траектории размечены так, что к каждому действию есть «рассуждение» почему это действие было выполнено

Из минусов: дискретная среда с небольшим набором действий (WASD + Open, Pick, Drop)

На гифке демо с дообученной Qwen2.5-VL-7B

#vlm #embodied

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3👏2❤1👍1

313 views16:21

About

Blog

Apps

Platform