BaseLine
477 subscribers
212 photos
19 videos
1 file
156 links
Канал Алексей Ковалёва – PhD, тимлид команды Embodied agents в AIRI, доцент ЦКМ МФТИ. Занимаюсь Embodied AI 🤖, LLM Planning, RL

Моё хобби – читать научпоп лекции по ИИ

Здесь делюсь событиями, мыслями, новостями
加入频道
qwen_ft.gif
37.2 MB
EmbRACE-3K или VirtualHome на стероидах

Довольно сырая, но вызывающая интерес работа

Авторы подметили, что VLMки, неплохо справляющиеся с задачами по картинкам и видео, не умеют из коробки в embodied задачи. Связывают это со способом обучения (что неудивительно) и выделяют три проблемы:

⚫️VLMки не умеют в эксплорэйшн — модели больше обращают внимание на текущие визуальные наблюдения и плохо справляются с долгосрочным планированием
⚫️VLMки не умеют учитывать позу — модели начинают плохо работать с пространственными отношениями, если агент двигается
⚫️VLMки забывают цель — модели часто не переносят намерение (intent) за пределы текущего фрейма

Для того чтобы тестировать способности VLMок авторы собрали 3000 траектории с языковыми инструкциями в симуляторе на движке Unreal Engine. Протестировали GPT-4o, Gemini 2.5 Pro и Qwen2.5-VL-7B в zero-shot и показали, что справляются они с задачами плохо, но дообучение в формате SFT+GRPO на собранных данных дает хороший прирост

Из плюсов: траектории размечены так, что к каждому действию есть «рассуждение» почему это действие было выполнено

Из минусов: дискретная среда с небольшим набором действий (WASD + Open, Pick, Drop)

На гифке демо с дообученной Qwen2.5-VL-7B

#vlm #embodied
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👏21👍1