VIRSUN

🚀مدل MolmoAct: نسل تازه مدل‌های بینایی-زبان-اکشن برای رباتیک

🧩 پژوهشگران در مقاله‌ای جدید MolmoAct را معرفی کرده‌اند؛ یک مدل متن‌باز VLA (Vision-Language-Action) که برای دستکاری رباتیک طراحی شده و با استدلال فضایی چندمرحله‌ای کار می‌کند.

🔹 ایده کلیدی
برخلاف روش‌های مرسوم end-to-end که از تصویر مستقیم به اکشن می‌روند، MolmoAct یک لایه میانی استدلال فضایی اضافه می‌کند تا:

♻️تعمیم‌پذیری بهتر

♻️شفافیت در تصمیم‌گیری

♻️امکان تعامل و اصلاح توسط کاربر

🔹 مراحل تولید خودبازگشتی (ARM)
مدل با ورودی تصویری + دستور زبانی سه نوع توکن تولید می‌کند:

1. توکن‌های عمق → نمایش هندسه سه‌بعدی صحنه

2. توکن‌های استدلال تصویری → مسیر دوبعدی (Polyline) برنامه‌ریزی‌شده برای ابزار انتهایی

3. توکن‌های اکشن سطح پایین

🔹 نتایج برجسته

📈 86.6% میانگین موفقیت در دیتاست LIBERO (بهترین عملکرد نسبت به همه مدل‌های پایه)

🦾 در وظایف واقعی، تا 22.7% بهبود پیشرفت کارها نسبت به خط پایه π-FAST در کارهای دو-دستی

🔹 اهمیت برای صنعت
ساختار شفاف و قابل‌ویرایش MolmoAct این امکان را می‌دهد که کاربران مسیر حرکت ربات را ویرایش کنند (Editable Trajectory Steering) و همین قابلیت آن را برای ربات‌های صنعتی و همکاری انسان-ماشین بسیار ارزشمند می‌کند.

📚 منبع: arXiv و HuggingFace

🌐 @rss_ai_ir
#هوش_مصنوعی #رباتیک #VisionLanguageModels #AI_industrial

😁9🔥8❤6🎉6👍5

1.4K views18:07

About

Blog

Apps

Platform