VIRSUN

یک جهش کوانتومی در حرکت ربات‌ها! 🤖 Boston Dynamics چگونه با شبکه‌های عصبی سرتاسری (End-to-End) راه رفتن را از نو تعریف می‌کند؟

✅همه ما ویدیوهای شگفت‌انگیز ربات‌های Boston Dynamics را دیده‌ایم که می‌دوند، می‌پرند و حتی پشتک می‌زنند! اما راز این همه چابکی و تعادل شبیه به موجودات زنده چیست؟

❇️اخیراً، این شرکت رویکرد خود را برای کنترل ربات‌هایش متحول کرده است. آن‌ها از روش‌های مهندسی سنتی فاصله گرفته و به سمت شبکه‌های عصبی سرتاسری (End-to-End Neural Networks) حرکت کرده‌اند. بیایید ببینیم این یعنی چه.

💡 نکات کلیدی این تحول بزرگ:

1. رویکرد سنتی (مبتنی بر مدل):
در گذشته، مهندسان باید تمام فیزیک ربات، نحوه حرکت مفاصل، مرکز ثقل و نحوه تعامل با محیط را به صورت معادلات پیچیده ریاضی مدل‌سازی می‌کردند. ربات برای هر حرکتی، این مدل‌ها را محاسبه می‌کرد. این روش قدرتمند اما شکننده بود و در محیط‌های پیش‌بینی‌نشده دچار مشکل می‌شد.

2. رویکرد جدید (یادگیری سرتاسری - End-to-End):
در این روش انقلابی، به جای نوشتن قوانین صریح، یک شبکه عصبی عمیق عظیم ساخته می‌شود.
❎ ورودی: داده‌های خام از حسگرهای ربات (مثل تصاویر دوربین، وضعیت مفاصل، شتاب‌سنج‌ها).
❎ خروجی: دستورات مستقیم برای موتورهای ربات (مثلاً چقدر هر مفصل را حرکت بده).
تمام فرآیند از "دیدن" تا "عمل کردن" در یک شبکه یکپارچه اتفاق می‌افتد.

3. چگونه ربات یاد می‌گیرد؟ از طریق آزمون و خطا در دنیای مجازی!
این شبکه عصبی در یک محیط شبیه‌سازی شده (Simulation) بسیار دقیق، میلیون‌ها بار راه رفتن، دویدن و افتادن را تجربه می‌کند! با هر بار موفقیت یا شکست، شبکه خودش را اصلاح می‌کند (فرآیندی شبیه به یادگیری تقویتی). پس از هزاران سال تجربه مجازی (که در چند ساعت در دنیای واقعی اتفاق می‌افتد)، دانش به دست آمده به ربات واقعی منتقل می‌شود.

4. نتیجه: چابکی و انعطاف‌پذیری باورنکردنی!
نتیجه این است که ربات، مانند یک حیوان، یک "درک شهودی" از حرکت پیدا می‌کند. می‌تواند روی سطوح ناهموار راه برود، از لغزش‌ها به سرعت خودش را بازیابی کند و در موقعیت‌هایی که هرگز برایش برنامه‌ریزی نشده، واکنش مناسب نشان دهد. این دیگر فقط دنبال کردن دستورات نیست؛ بلکه یادگیری یک مهارت است.

🚀 این تغییر از "برنامه‌نویسی ربات" به "آموزش دادن به ربات" یک گام بنیادی به سوی ساخت ماشین‌هایی است که می‌توانند به طور مستقل و ایمن در دنیای پیچیده و غیرقابل پیش‌بینی ما انسان‌ها عمل کنند.

#هوش_مصنوعی #رباتیک #بوستون_داینامیکس #یادگیری_عمیق #شبکه_عصبی #کنترل_ربات #یادگیری_تقویتی #آینده_فناوری
#BostonDynamics #Robotics #DeepLearning #NeuralNetworks #EndToEndLearning #AI

❤13😁13👏12🎉12👍11🔥11🥰11🙏1

3.05K viewsedited 17:44

VIRSUN

📌 عنوان:
چرا دراپ‌اوت فقط یک «خاموش‌کننده تصادفی» نیست؟ 🤔🔍

---

بیشتر متخصصان هوش مصنوعی، دراپ‌اوت را صرفاً روشی برای خاموش کردن تصادفی نرون‌ها می‌دانند، اما پشت این تکنیک ایده‌ای عمیق‌تر وجود دارد که آن را به یکی از مهم‌ترین روش‌های منظم‌سازی (Regularization) تبدیل کرده است.

💡 ایده اصلی
در مراحل آموزش، هر بار درصدی از نرون‌ها (مثلاً ۲۰ تا ۵۰٪) به طور تصادفی غیرفعال می‌شوند. این کار جلوی وابستگی بیش‌ازحد شبکه به مسیرهای خاص پردازش اطلاعات را می‌گیرد.

🌀 اثر پنهان
دراپ‌اوت در عمل شبیه ترکیب‌گیری مدل‌ها (Ensemble) عمل می‌کند. با هر بار غیرفعال شدن بخشی از نرون‌ها، یک زیرمدل جدید ساخته می‌شود و در نهایت، خروجی مدل مانند میانگین‌گیری از هزاران زیرمدل مستقل خواهد بود.

🚀 چرا اهمیت دارد؟
- کاهش شدید بیش‌برازش (Overfitting) بدون نیاز به داده اضافه
- ایجاد تعداد زیادی مدل کوچک در دل یک مدل اصلی بدون هزینه‌ی جداگانه
- سازگاری فوق‌العاده با معماری‌های پیشرفته مثل ترنسفورمرها

⚙️ نکته تخصصی
در هنگام تست، دراپ‌اوت غیرفعال است اما وزن‌ها با توجه به احتمال غیرفعال‌سازی، مقیاس‌بندی (Re-scaling) می‌شوند تا خروجی سازگار باقی بماند.

---

🔖 #هوش_مصنوعی #یادگیری_عمیق #LLM #شبکه_عصبی #دراپ_اوت #DeepLearning #AI #MachineLearning
@rss_ai_ir

🥰8👏5😁5❤4🔥4👍2🎉2

233 viewsedited 05:09

VIRSUN

📌 عنوان:
نقشه حرارتی نقص‌ها در پردازش تصویر صنعتی 🔍📷

---

در سامانه‌های بینایی ماشین صنعتی (Machine Vision)، یکی از روش‌های پیشرفته برای شناسایی نقص‌های بسیار ریز در قطعات، استفاده از نقشه‌های حرارتی (Heatmaps) حاصل از شبکه‌های عصبی کانولوشنی (CNN) است.

این نقشه‌ها نقاطی از تصویر را که بیشترین میزان توجه مدل را جلب کرده‌اند پررنگ‌تر نشان می‌دهند.

⚙️ چرا مهم است؟
- امکان شناسایی نقص‌های بسیار کوچک‌تر از ۱ میلی‌متر 📏
- کمک به اپراتور برای تفسیر تصمیم مدل
- بهبود خط تولید با تعیین دقیق موقعیت مشکل روی قطعه

📌 نکته تخصصی:
در بسیاری از خطوط تولید، از روش Grad-CAM++ برای تولید این نقشه‌های حرارتی استفاده می‌شود، زیرا توانایی بالاتری در محلی‌سازی نقص‌ها حتی در پس‌زمینه‌های پیچیده دارد.

---

🔖 #پردازش_تصویر #بینایی_ماشین #صنعت #هوش_مصنوعی #بینایی_کامپیوتر #Inspection #DeepLearning #AI
@rss_ai_ir

👍8👏8🔥5😁4🥰3🎉3❤2

305 views06:10

VIRSUN

🔬 یک نکته تخصصی در مورد CNN:

♻️در معماری‌های مدرن CNN به جای استفاده از پولینگ سنتی (MaxPooling/AvgPooling)، اغلب از stride > 1 در کانولوشن استفاده می‌شود.

📌 چرا؟

✅یادگیری‌پذیری بالاتر: بر خلاف Pooling که یک عمل ثابت و بدون پارامتر است، کانولوشن با stride بزرگ‌تر می‌تواند همزمان هم کاهش ابعاد بدهد و هم ویژگی‌های قابل یادگیری استخراج کند.

✅پایداری گرادیان: استفاده بیش‌ازحد از pooling می‌تواند باعث از دست رفتن اطلاعات ظریف و مشکلات در backpropagation شود.

✅دقت بالاتر در شبکه‌های عمیق: مدل‌هایی مثل ResNet و EfficientNet نشان داده‌اند که حذف یا کاهش pooling و جایگزینی آن با کانولوشن استرایددار (stride convolution) باعث بهبود generalization می‌شود.

⚡ نتیجه: در طراحی CNN برای پروژه‌های صنعتی، به جای اتکا به Pooling‌های متعدد، استفاده از کانولوشن استرایددار هم دقت بالاتر و هم بهینه‌سازی بهتری در حافظه و سرعت به همراه دارد.

@rss_ai_ir
#CNN #DeepLearning #هوش_مصنوعی #بینایی_ماشین #Convolution

🔥8🥰8👏7❤6🎉6😁5👍4

860 viewsedited 08:32

VIRSUN

🔥 خبر داغ برای علاقه‌مندان سخت‌افزار و یادگیری عمیق: نسخه چهارم FlashAttention در راه است!

🔹 تیم توسعه‌دهنده این الگوریتم در کنفرانس HotChips از FlashAttention 4 رونمایی کرد.
🔹 نسخه سوم مدت‌هاست که استاندارد صنعت شده، اما حالا نسخه چهارم روی معماری Blackwell بهینه‌سازی شده و روی توالی‌های طولانی حدود ۲۲٪ افزایش کارایی ارائه می‌دهد.
🔹 این یعنی محاسبات سریع‌تر، ارزان‌تر و کارآمدتر برای مدل‌های بزرگ زبانی و بینایی.

📊 تفاوت اصلی در بهینه‌سازی محاسبات Softmax و Exponent به همراه استفاده بهتر از Tensor Cores است.
📌 هنوز کد و مستندات رسمی منتشر نشده، اما نمودارهای اولیه نشان می‌دهد که در طول دنباله‌های بسیار بزرگ، این الگوریتم به‌طور چشمگیری از cuDNN جلو می‌زند.

به زبان ساده: FlashAttention 4 قراره مصرف منابع را کم کنه، سرعت رو بالا ببره و آموزش و استنتاج مدل‌های غول‌پیکر رو به‌صرفه‌تر کنه 🚀

#FlashAttention #هوش_مصنوعی #GPU #Blackwell #AI #DeepLearning #NVIDIA

@rss_ai_ir

👍1🔥1🙏1

784 viewsedited 15:53

VIRSUN

This media is not supported in your browser

VIEW IN TELEGRAM

📌 انواع روش‌های عمق‌سنجی در بینایی ماشین و صنعت

🔹 ۱. روش‌های سنتی (Geometric Methods):

استریو ویژن (Stereo Vision):
مقایسه دو تصویر از زوایای مختلف برای محاسبه عمق.
استراکچر از موشن (Structure from Motion – SfM):
بازسازی سه‌بعدی با استفاده از تصاویر متوالی یک دوربین متحرک.
Shape from Shading / Defocus:
استفاده از سایه یا میزان فوکوس برای تخمین عمق.
Photometric Stereo:
نورپردازی از چند جهت و تحلیل تغییرات روشنایی.

🔹 ۲. سنسوری (Sensor-based):

LiDAR (Light Detection and Ranging):
پرتاب لیزر و اندازه‌گیری زمان بازگشت.
Time-of-Flight (ToF) Cameras:
سنجش عمق با زمان رفت و برگشت نور.
Structured Light:
تاباندن الگوهای نوری روی صحنه و اندازه‌گیری تغییر شکل آن‌ها (مثل Kinect قدیمی).
Radar & mmWave:
به‌ویژه در خودروهای خودران و محیط‌های صنعتی پر گردوغبار.

🔹 ۳. مبتنی بر یادگیری عمیق (Deep Learning–based):

Monocular Depth Estimation:
آموزش شبکه‌های CNN/Transformer برای تخمین عمق از یک تصویر.
Stereo Matching with Deep Nets:
جایگزینی الگوریتم‌های هندسی با شبکه‌های عصبی.
Depth Completion:
ترکیب داده‌های ناقص LiDAR با تصویر RGB.
Neural Radiance Fields (NeRF):
بازسازی سه‌بعدی از تصاویر چندگانه با استفاده از شبکه‌های عصبی ضمنی.
Gaussian Splatting 3DGS (۲۰۲۳–۲۰۲۵):
روشی جدیدتر نسبت به NeRF، سریع‌تر و کارآمدتر برای بازسازی صحنه‌ها.

🔹 ۴. ترکیبی و چندوجهی (Hybrid / Multimodal):

Fusion Approaches:
ترکیب LiDAR + RGB + IMU برای دقت بالاتر (مثلاً در خودروها).

Event Cameras + Depth:
استفاده از دوربین‌های رویدادی برای تخمین عمق در صحنه‌های بسیار سریع.

AI-driven SLAM (Simultaneous Localization and Mapping):
همزمانی نقشه‌برداری و عمق‌سنجی با یادگیری عمیق.

✨ کاربردها در صنعت:
👷 کنترل کیفیت قطعات صنعتی،
🚘 خودروهای خودران،
🤖 رباتیک و بازوهای هوشمند،
🏭 پایش خطوط تولید،
🩺 پزشکی (جراحی رباتیک، تصویربرداری سه‌بعدی).

🔖 هشتگ‌ها:
#هوش_مصنوعی #بینایی_ماشین #عمق_سنجی #DeepLearning #LiDAR #NeRF

@rss_ai_ir

🔥15❤11😁9👍8🎉6

3.03K viewsedited 05:19

VIRSUN

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

1:28

This media is not supported in your browser

VIEW IN TELEGRAM

0:47

This media is not supported in your browser

VIEW IN TELEGRAM

🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts

محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کرده‌اند که مشکل اصلی مدل‌ها را حل می‌کند:
وقتی ویدئو طولانی می‌شود، توجه مدل بیش از حد «پف می‌کند»؛ محاسبات سنگین‌تر می‌شود، جزئیات از بین می‌رود، کاراکترها فراموش می‌شوند و تصویر «سر می‌خورد».

---

🔑 ایده اصلی: Mixture of Contexts

♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم می‌شود.
♻️هر کوئری فقط بخش‌های مرتبط را انتخاب می‌کند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام می‌شود (مقایسه ویژگی بخش‌ها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریم‌های آینده را می‌بندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخش‌های انتخاب‌شده اعمال می‌شود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.

---

📊 نتایج

♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنه‌های طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.

---

🎥 جمع‌بندی

✳️در ویدئوهای کوتاه، کیفیت حفظ می‌شود.
✳️در ویدئوهای طولانی، صحنه‌ها روان‌تر و کاراکترها پایدارتر هستند.
✳️زمان تولید به‌طور محسوسی کاهش می‌یابد.

🔑 نکته مهم:
مدل خودش یاد می‌گیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا می‌کند.

🔖 لینک مقاله

#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو

🎉26👍25❤23🥰23😁22🔥18👏16

3.05K views13:12

About

Blog

Apps

Platform