🔥 خبر داغ برای علاقهمندان سختافزار و یادگیری عمیق: نسخه چهارم FlashAttention در راه است!
🔹 تیم توسعهدهنده این الگوریتم در کنفرانس HotChips از FlashAttention 4 رونمایی کرد.
🔹 نسخه سوم مدتهاست که استاندارد صنعت شده، اما حالا نسخه چهارم روی معماری Blackwell بهینهسازی شده و روی توالیهای طولانی حدود ۲۲٪ افزایش کارایی ارائه میدهد.
🔹 این یعنی محاسبات سریعتر، ارزانتر و کارآمدتر برای مدلهای بزرگ زبانی و بینایی.
📊 تفاوت اصلی در بهینهسازی محاسبات Softmax و Exponent به همراه استفاده بهتر از Tensor Cores است.
📌 هنوز کد و مستندات رسمی منتشر نشده، اما نمودارهای اولیه نشان میدهد که در طول دنبالههای بسیار بزرگ، این الگوریتم بهطور چشمگیری از cuDNN جلو میزند.
به زبان ساده: FlashAttention 4 قراره مصرف منابع را کم کنه، سرعت رو بالا ببره و آموزش و استنتاج مدلهای غولپیکر رو بهصرفهتر کنه 🚀
#FlashAttention #هوش_مصنوعی #GPU #Blackwell #AI #DeepLearning #NVIDIA
@rss_ai_ir
🔹 تیم توسعهدهنده این الگوریتم در کنفرانس HotChips از FlashAttention 4 رونمایی کرد.
🔹 نسخه سوم مدتهاست که استاندارد صنعت شده، اما حالا نسخه چهارم روی معماری Blackwell بهینهسازی شده و روی توالیهای طولانی حدود ۲۲٪ افزایش کارایی ارائه میدهد.
🔹 این یعنی محاسبات سریعتر، ارزانتر و کارآمدتر برای مدلهای بزرگ زبانی و بینایی.
📊 تفاوت اصلی در بهینهسازی محاسبات Softmax و Exponent به همراه استفاده بهتر از Tensor Cores است.
📌 هنوز کد و مستندات رسمی منتشر نشده، اما نمودارهای اولیه نشان میدهد که در طول دنبالههای بسیار بزرگ، این الگوریتم بهطور چشمگیری از cuDNN جلو میزند.
به زبان ساده: FlashAttention 4 قراره مصرف منابع را کم کنه، سرعت رو بالا ببره و آموزش و استنتاج مدلهای غولپیکر رو بهصرفهتر کنه 🚀
#FlashAttention #هوش_مصنوعی #GPU #Blackwell #AI #DeepLearning #NVIDIA
@rss_ai_ir
👍1🔥1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
📌 انواع روشهای عمقسنجی در بینایی ماشین و صنعت
🔹 ۱. روشهای سنتی (Geometric Methods):
استریو ویژن (Stereo Vision):
مقایسه دو تصویر از زوایای مختلف برای محاسبه عمق.
استراکچر از موشن (Structure from Motion – SfM):
بازسازی سهبعدی با استفاده از تصاویر متوالی یک دوربین متحرک.
Shape from Shading / Defocus:
استفاده از سایه یا میزان فوکوس برای تخمین عمق.
Photometric Stereo:
نورپردازی از چند جهت و تحلیل تغییرات روشنایی.
🔹 ۲. سنسوری (Sensor-based):
LiDAR (Light Detection and Ranging):
پرتاب لیزر و اندازهگیری زمان بازگشت.
Time-of-Flight (ToF) Cameras:
سنجش عمق با زمان رفت و برگشت نور.
Structured Light:
تاباندن الگوهای نوری روی صحنه و اندازهگیری تغییر شکل آنها (مثل Kinect قدیمی).
Radar & mmWave:
بهویژه در خودروهای خودران و محیطهای صنعتی پر گردوغبار.
🔹 ۳. مبتنی بر یادگیری عمیق (Deep Learning–based):
Monocular Depth Estimation:
آموزش شبکههای CNN/Transformer برای تخمین عمق از یک تصویر.
Stereo Matching with Deep Nets:
جایگزینی الگوریتمهای هندسی با شبکههای عصبی.
Depth Completion:
ترکیب دادههای ناقص LiDAR با تصویر RGB.
Neural Radiance Fields (NeRF):
بازسازی سهبعدی از تصاویر چندگانه با استفاده از شبکههای عصبی ضمنی.
Gaussian Splatting 3DGS (۲۰۲۳–۲۰۲۵):
روشی جدیدتر نسبت به NeRF، سریعتر و کارآمدتر برای بازسازی صحنهها.
🔹 ۴. ترکیبی و چندوجهی (Hybrid / Multimodal):
Fusion Approaches:
ترکیب LiDAR + RGB + IMU برای دقت بالاتر (مثلاً در خودروها).
Event Cameras + Depth:
استفاده از دوربینهای رویدادی برای تخمین عمق در صحنههای بسیار سریع.
AI-driven SLAM (Simultaneous Localization and Mapping):
همزمانی نقشهبرداری و عمقسنجی با یادگیری عمیق.
✨ کاربردها در صنعت:
👷 کنترل کیفیت قطعات صنعتی،
🚘 خودروهای خودران،
🤖 رباتیک و بازوهای هوشمند،
🏭 پایش خطوط تولید،
🩺 پزشکی (جراحی رباتیک، تصویربرداری سهبعدی).
🔖 هشتگها:
#هوش_مصنوعی #بینایی_ماشین #عمق_سنجی #DeepLearning #LiDAR #NeRF
@rss_ai_ir
🔹 ۱. روشهای سنتی (Geometric Methods):
استریو ویژن (Stereo Vision):
مقایسه دو تصویر از زوایای مختلف برای محاسبه عمق.
استراکچر از موشن (Structure from Motion – SfM):
بازسازی سهبعدی با استفاده از تصاویر متوالی یک دوربین متحرک.
Shape from Shading / Defocus:
استفاده از سایه یا میزان فوکوس برای تخمین عمق.
Photometric Stereo:
نورپردازی از چند جهت و تحلیل تغییرات روشنایی.
🔹 ۲. سنسوری (Sensor-based):
LiDAR (Light Detection and Ranging):
پرتاب لیزر و اندازهگیری زمان بازگشت.
Time-of-Flight (ToF) Cameras:
سنجش عمق با زمان رفت و برگشت نور.
Structured Light:
تاباندن الگوهای نوری روی صحنه و اندازهگیری تغییر شکل آنها (مثل Kinect قدیمی).
Radar & mmWave:
بهویژه در خودروهای خودران و محیطهای صنعتی پر گردوغبار.
🔹 ۳. مبتنی بر یادگیری عمیق (Deep Learning–based):
Monocular Depth Estimation:
آموزش شبکههای CNN/Transformer برای تخمین عمق از یک تصویر.
Stereo Matching with Deep Nets:
جایگزینی الگوریتمهای هندسی با شبکههای عصبی.
Depth Completion:
ترکیب دادههای ناقص LiDAR با تصویر RGB.
Neural Radiance Fields (NeRF):
بازسازی سهبعدی از تصاویر چندگانه با استفاده از شبکههای عصبی ضمنی.
Gaussian Splatting 3DGS (۲۰۲۳–۲۰۲۵):
روشی جدیدتر نسبت به NeRF، سریعتر و کارآمدتر برای بازسازی صحنهها.
🔹 ۴. ترکیبی و چندوجهی (Hybrid / Multimodal):
Fusion Approaches:
ترکیب LiDAR + RGB + IMU برای دقت بالاتر (مثلاً در خودروها).
Event Cameras + Depth:
استفاده از دوربینهای رویدادی برای تخمین عمق در صحنههای بسیار سریع.
AI-driven SLAM (Simultaneous Localization and Mapping):
همزمانی نقشهبرداری و عمقسنجی با یادگیری عمیق.
✨ کاربردها در صنعت:
👷 کنترل کیفیت قطعات صنعتی،
🚘 خودروهای خودران،
🤖 رباتیک و بازوهای هوشمند،
🏭 پایش خطوط تولید،
🩺 پزشکی (جراحی رباتیک، تصویربرداری سهبعدی).
🔖 هشتگها:
#هوش_مصنوعی #بینایی_ماشین #عمق_سنجی #DeepLearning #LiDAR #NeRF
@rss_ai_ir
🔥15❤11😁9👍8🎉6
🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
🎉26👍25❤23🥰23😁22🔥18👏16