🤖 شرکت Figure AI مدل جدیدی به نام Helix معرفی کرده که یک تحول اساسی در رباتیک انساننماست: کنترل کامل ۳۵ درجه آزادی نیمتنه بالا (سر، دستها، بازوها، انگشتان و تنه) تنها با یک شبکه عصبی، آن هم با واکنش به دستورات گفتاری طبیعی.
🔹 ویژگیهای کلیدی Helix
✅ یادگیری تعمیمپذیر (Grab-anything): دستور «چایساز را بردار» حتی برای چایسازی که ربات هرگز ندیده، اجرا میشود.
✅ کار گروهی: یک مجموعه وزن روی دو ربات مختلف کار میکند؛ یکی بستهی شیر را میدهد، دیگری در یخچال میگذارد — بدون برنامهریزی نقشها.
✅کنترل همزمان ۳۵ محور حرکتی با فرکانس ۲۰۰ هرتز: هماهنگی چشم، بدن و انگشتان برای گرفتن دقیق اشیاء.
✅ کاملاً روی دستگاه: همهی محاسبات روی دو GPU کممصرف داخلی انجام میشود، بدون نیاز به پردازش ابری.
🧠 معماری «سیستم ۱ و سیستم ۲»
1. سیستم ۲ (فکر کندتر): یک VLM متنباز ۷ میلیارد پارامتری با ۷-۹ هرتز → درک صحنه و تولید دستور کلی.
2. سیستم ۱ (واکنش سریع): یک ترنسفورمر ۸۰ میلیون پارامتری با ۲۰۰ هرتز → اجرای دقیق حرکات و اصلاح لحظهای مسیر.
📊 دادههای آموزشی
* تنها ۵۰۰ ساعت ضبط تلهاپراتوری (<۵٪ دیتاستهای رایج).
* بدون فاینتیون جداگانه: همان وزنها هم برای گرفتن لیوان، هم بازکردن کشو و همکاری دو ربات کافیاند.
* برچسبگذاری خودکار: VLM ویدیوها را تحلیل کرده و متن آموزشی تولید میکند.
🏠 چرا مهم است؟
خانه چالشبرانگیزترین محیط برای رباتهاست: تنوع بیپایان اشیاء، ظروف شکننده، لباسهای مچاله. تا دیروز هر مهارت جدید نیازمند هزاران دموی انسانی یا کدنویسی پیچیده بود. حالا با Helix، تنها یک جملهی صوتی کافیست.
🚀 گام بعدی
تیم Figure AI این نتایج را فقط «نوک کوه یخ» میداند و در حال جذب نیرو برای ۱۰۰۰ برابر مقیاسپذیری Helix است. آیندهای که میلیونها ربات انساننما وارد خانهها شوند، یک قدم دیگر نزدیکتر شد.
✨مدل Helix = GPT برای دستهای رباتیک.
فقط با یک مدل، با زبان طبیعی، بدون کدنویسی اضافه. دفعهی بعد که کنترل تلویزیون زیر مبل افتاد، فقط کافیست به ربات بگویید: «لطفاً بردار».
📌 @rss_ai_ir | #Robotics #AI #FigureAI
🔹 ویژگیهای کلیدی Helix
✅ یادگیری تعمیمپذیر (Grab-anything): دستور «چایساز را بردار» حتی برای چایسازی که ربات هرگز ندیده، اجرا میشود.
✅ کار گروهی: یک مجموعه وزن روی دو ربات مختلف کار میکند؛ یکی بستهی شیر را میدهد، دیگری در یخچال میگذارد — بدون برنامهریزی نقشها.
✅کنترل همزمان ۳۵ محور حرکتی با فرکانس ۲۰۰ هرتز: هماهنگی چشم، بدن و انگشتان برای گرفتن دقیق اشیاء.
✅ کاملاً روی دستگاه: همهی محاسبات روی دو GPU کممصرف داخلی انجام میشود، بدون نیاز به پردازش ابری.
🧠 معماری «سیستم ۱ و سیستم ۲»
1. سیستم ۲ (فکر کندتر): یک VLM متنباز ۷ میلیارد پارامتری با ۷-۹ هرتز → درک صحنه و تولید دستور کلی.
2. سیستم ۱ (واکنش سریع): یک ترنسفورمر ۸۰ میلیون پارامتری با ۲۰۰ هرتز → اجرای دقیق حرکات و اصلاح لحظهای مسیر.
📊 دادههای آموزشی
* تنها ۵۰۰ ساعت ضبط تلهاپراتوری (<۵٪ دیتاستهای رایج).
* بدون فاینتیون جداگانه: همان وزنها هم برای گرفتن لیوان، هم بازکردن کشو و همکاری دو ربات کافیاند.
* برچسبگذاری خودکار: VLM ویدیوها را تحلیل کرده و متن آموزشی تولید میکند.
🏠 چرا مهم است؟
خانه چالشبرانگیزترین محیط برای رباتهاست: تنوع بیپایان اشیاء، ظروف شکننده، لباسهای مچاله. تا دیروز هر مهارت جدید نیازمند هزاران دموی انسانی یا کدنویسی پیچیده بود. حالا با Helix، تنها یک جملهی صوتی کافیست.
🚀 گام بعدی
تیم Figure AI این نتایج را فقط «نوک کوه یخ» میداند و در حال جذب نیرو برای ۱۰۰۰ برابر مقیاسپذیری Helix است. آیندهای که میلیونها ربات انساننما وارد خانهها شوند، یک قدم دیگر نزدیکتر شد.
✨مدل Helix = GPT برای دستهای رباتیک.
فقط با یک مدل، با زبان طبیعی، بدون کدنویسی اضافه. دفعهی بعد که کنترل تلویزیون زیر مبل افتاد، فقط کافیست به ربات بگویید: «لطفاً بردار».
📌 @rss_ai_ir | #Robotics #AI #FigureAI
❤6👍5🔥5😁4🎉2
This media is not supported in your browser
VIEW IN TELEGRAM
📌 تسلا استراتژی آموزش ربات Optimus را تغییر داد
♻️طبق گزارش Business Insider، تسلا تصمیم گرفته آموزش ربات Optimus را بر پایهی رویکرد فقط-بینایی (vision-only) جلو ببرد؛ یعنی یادگیری صرفاً از طریق تصاویر و ویدئو.
🔑 نکات کلیدی:
✳️در اواخر جولای به کارکنان اعلام شد که از این پس تمرکز بر آموزش با تصویر و ویدئو خواهد بود. این دقیقاً همان فلسفهای است که تسلا در توسعهی سیستم رانندگی خودکارش دنبال میکند و برخلاف رقبا از LiDAR استفاده نمیکند.
✳️پیشتر از هدستهای VR و لباسهای موشنکپچر برای ضبط حرکات انسانها استفاده میکردند. اکنون تمرکز روی ضبط ویدئو از کارگران در حال انجام وظایف است.
✳️حذف موشنکپچر باعث میشود مقیاسپذیری افزایش یابد، زیرا دیگر مشکلات فنی و تعمیر تجهیزات مزاحم نیست.
✳️ویدئوها ساده و معمولی نیستند: تسلا در حال آزمایش سیستمی با ۵ دوربین است — یک دوربین روی کلاه و چهار دوربین روی «کولهپشتی» سنگین برای پوشش دید چند جهته.
✳️در حالیکه رقبایی مانند Figure.AI ،Physical Intelligence و Boston Dynamics همچنان بر موشنکپچر تکیه دارند، تسلا مسیر متفاوتی را انتخاب کرده است.
🤔 پرسش مهم این است: آیا رویکرد vision-only میتواند سریعتر از روشهای سنتی مبتنی بر موشنکپچر پیش برود؟
@rss_ai_ir
#تسلا #Optimus #رباتیک #هوش_مصنوعی #vision_only #BostonDynamics #FigureAI
♻️طبق گزارش Business Insider، تسلا تصمیم گرفته آموزش ربات Optimus را بر پایهی رویکرد فقط-بینایی (vision-only) جلو ببرد؛ یعنی یادگیری صرفاً از طریق تصاویر و ویدئو.
🔑 نکات کلیدی:
✳️در اواخر جولای به کارکنان اعلام شد که از این پس تمرکز بر آموزش با تصویر و ویدئو خواهد بود. این دقیقاً همان فلسفهای است که تسلا در توسعهی سیستم رانندگی خودکارش دنبال میکند و برخلاف رقبا از LiDAR استفاده نمیکند.
✳️پیشتر از هدستهای VR و لباسهای موشنکپچر برای ضبط حرکات انسانها استفاده میکردند. اکنون تمرکز روی ضبط ویدئو از کارگران در حال انجام وظایف است.
✳️حذف موشنکپچر باعث میشود مقیاسپذیری افزایش یابد، زیرا دیگر مشکلات فنی و تعمیر تجهیزات مزاحم نیست.
✳️ویدئوها ساده و معمولی نیستند: تسلا در حال آزمایش سیستمی با ۵ دوربین است — یک دوربین روی کلاه و چهار دوربین روی «کولهپشتی» سنگین برای پوشش دید چند جهته.
✳️در حالیکه رقبایی مانند Figure.AI ،Physical Intelligence و Boston Dynamics همچنان بر موشنکپچر تکیه دارند، تسلا مسیر متفاوتی را انتخاب کرده است.
🤔 پرسش مهم این است: آیا رویکرد vision-only میتواند سریعتر از روشهای سنتی مبتنی بر موشنکپچر پیش برود؟
@rss_ai_ir
#تسلا #Optimus #رباتیک #هوش_مصنوعی #vision_only #BostonDynamics #FigureAI
👍3🔥1👏1😁1