VIRSUN
15.7K subscribers
350 photos
210 videos
2 files
215 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🔹 کانال توسط اساتید هوش مصنوعی مدیریت میشود
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir
加入频道
🚀مدل MolmoAct: نسل تازه مدل‌های بینایی-زبان-اکشن برای رباتیک

🧩 پژوهشگران در مقاله‌ای جدید MolmoAct را معرفی کرده‌اند؛ یک مدل متن‌باز VLA (Vision-Language-Action) که برای دستکاری رباتیک طراحی شده و با استدلال فضایی چندمرحله‌ای کار می‌کند.

🔹 ایده کلیدی
برخلاف روش‌های مرسوم end-to-end که از تصویر مستقیم به اکشن می‌روند، MolmoAct یک لایه میانی استدلال فضایی اضافه می‌کند تا:

♻️تعمیم‌پذیری بهتر

♻️شفافیت در تصمیم‌گیری

♻️امکان تعامل و اصلاح توسط کاربر


🔹 مراحل تولید خودبازگشتی (ARM)
مدل با ورودی تصویری + دستور زبانی سه نوع توکن تولید می‌کند:

1. توکن‌های عمق → نمایش هندسه سه‌بعدی صحنه


2. توکن‌های استدلال تصویری → مسیر دوبعدی (Polyline) برنامه‌ریزی‌شده برای ابزار انتهایی


3. توکن‌های اکشن سطح پایین



🔹 نتایج برجسته

📈 86.6% میانگین موفقیت در دیتاست LIBERO (بهترین عملکرد نسبت به همه مدل‌های پایه)

🦾 در وظایف واقعی، تا 22.7% بهبود پیشرفت کارها نسبت به خط پایه π-FAST در کارهای دو-دستی


🔹 اهمیت برای صنعت
ساختار شفاف و قابل‌ویرایش MolmoAct این امکان را می‌دهد که کاربران مسیر حرکت ربات را ویرایش کنند (Editable Trajectory Steering) و همین قابلیت آن را برای ربات‌های صنعتی و همکاری انسان-ماشین بسیار ارزشمند می‌کند.

📚 منبع: arXiv و HuggingFace

🌐 @rss_ai_ir
#هوش_مصنوعی #رباتیک #VisionLanguageModels #AI_industrial
😁9🔥86🎉6👍5