VIRSUN

🔬 یک نکته تخصصی در مورد CNN:

♻️در معماری‌های مدرن CNN به جای استفاده از پولینگ سنتی (MaxPooling/AvgPooling)، اغلب از stride > 1 در کانولوشن استفاده می‌شود.

📌 چرا؟

✅یادگیری‌پذیری بالاتر: بر خلاف Pooling که یک عمل ثابت و بدون پارامتر است، کانولوشن با stride بزرگ‌تر می‌تواند همزمان هم کاهش ابعاد بدهد و هم ویژگی‌های قابل یادگیری استخراج کند.

✅پایداری گرادیان: استفاده بیش‌ازحد از pooling می‌تواند باعث از دست رفتن اطلاعات ظریف و مشکلات در backpropagation شود.

✅دقت بالاتر در شبکه‌های عمیق: مدل‌هایی مثل ResNet و EfficientNet نشان داده‌اند که حذف یا کاهش pooling و جایگزینی آن با کانولوشن استرایددار (stride convolution) باعث بهبود generalization می‌شود.

⚡ نتیجه: در طراحی CNN برای پروژه‌های صنعتی، به جای اتکا به Pooling‌های متعدد، استفاده از کانولوشن استرایددار هم دقت بالاتر و هم بهینه‌سازی بهتری در حافظه و سرعت به همراه دارد.

@rss_ai_ir
#CNN #DeepLearning #هوش_مصنوعی #بینایی_ماشین #Convolution

🔥8🥰8👏7❤6🎉6😁5👍4

861 viewsedited 08:32

VIRSUN

🔥 خبر داغ برای علاقه‌مندان سخت‌افزار و یادگیری عمیق: نسخه چهارم FlashAttention در راه است!

🔹 تیم توسعه‌دهنده این الگوریتم در کنفرانس HotChips از FlashAttention 4 رونمایی کرد.
🔹 نسخه سوم مدت‌هاست که استاندارد صنعت شده، اما حالا نسخه چهارم روی معماری Blackwell بهینه‌سازی شده و روی توالی‌های طولانی حدود ۲۲٪ افزایش کارایی ارائه می‌دهد.
🔹 این یعنی محاسبات سریع‌تر، ارزان‌تر و کارآمدتر برای مدل‌های بزرگ زبانی و بینایی.

📊 تفاوت اصلی در بهینه‌سازی محاسبات Softmax و Exponent به همراه استفاده بهتر از Tensor Cores است.
📌 هنوز کد و مستندات رسمی منتشر نشده، اما نمودارهای اولیه نشان می‌دهد که در طول دنباله‌های بسیار بزرگ، این الگوریتم به‌طور چشمگیری از cuDNN جلو می‌زند.

به زبان ساده: FlashAttention 4 قراره مصرف منابع را کم کنه، سرعت رو بالا ببره و آموزش و استنتاج مدل‌های غول‌پیکر رو به‌صرفه‌تر کنه 🚀

#FlashAttention #هوش_مصنوعی #GPU #Blackwell #AI #DeepLearning #NVIDIA

@rss_ai_ir

👍1🔥1🙏1

788 viewsedited 15:53

VIRSUN

This media is not supported in your browser

VIEW IN TELEGRAM

📌 انواع روش‌های عمق‌سنجی در بینایی ماشین و صنعت

🔹 ۱. روش‌های سنتی (Geometric Methods):

استریو ویژن (Stereo Vision):
مقایسه دو تصویر از زوایای مختلف برای محاسبه عمق.
استراکچر از موشن (Structure from Motion – SfM):
بازسازی سه‌بعدی با استفاده از تصاویر متوالی یک دوربین متحرک.
Shape from Shading / Defocus:
استفاده از سایه یا میزان فوکوس برای تخمین عمق.
Photometric Stereo:
نورپردازی از چند جهت و تحلیل تغییرات روشنایی.

🔹 ۲. سنسوری (Sensor-based):

LiDAR (Light Detection and Ranging):
پرتاب لیزر و اندازه‌گیری زمان بازگشت.
Time-of-Flight (ToF) Cameras:
سنجش عمق با زمان رفت و برگشت نور.
Structured Light:
تاباندن الگوهای نوری روی صحنه و اندازه‌گیری تغییر شکل آن‌ها (مثل Kinect قدیمی).
Radar & mmWave:
به‌ویژه در خودروهای خودران و محیط‌های صنعتی پر گردوغبار.

🔹 ۳. مبتنی بر یادگیری عمیق (Deep Learning–based):

Monocular Depth Estimation:
آموزش شبکه‌های CNN/Transformer برای تخمین عمق از یک تصویر.
Stereo Matching with Deep Nets:
جایگزینی الگوریتم‌های هندسی با شبکه‌های عصبی.
Depth Completion:
ترکیب داده‌های ناقص LiDAR با تصویر RGB.
Neural Radiance Fields (NeRF):
بازسازی سه‌بعدی از تصاویر چندگانه با استفاده از شبکه‌های عصبی ضمنی.
Gaussian Splatting 3DGS (۲۰۲۳–۲۰۲۵):
روشی جدیدتر نسبت به NeRF، سریع‌تر و کارآمدتر برای بازسازی صحنه‌ها.

🔹 ۴. ترکیبی و چندوجهی (Hybrid / Multimodal):

Fusion Approaches:
ترکیب LiDAR + RGB + IMU برای دقت بالاتر (مثلاً در خودروها).

Event Cameras + Depth:
استفاده از دوربین‌های رویدادی برای تخمین عمق در صحنه‌های بسیار سریع.

AI-driven SLAM (Simultaneous Localization and Mapping):
همزمانی نقشه‌برداری و عمق‌سنجی با یادگیری عمیق.

✨ کاربردها در صنعت:
👷 کنترل کیفیت قطعات صنعتی،
🚘 خودروهای خودران،
🤖 رباتیک و بازوهای هوشمند،
🏭 پایش خطوط تولید،
🩺 پزشکی (جراحی رباتیک، تصویربرداری سه‌بعدی).

🔖 هشتگ‌ها:
#هوش_مصنوعی #بینایی_ماشین #عمق_سنجی #DeepLearning #LiDAR #NeRF

@rss_ai_ir

🔥15❤11😁9👍8🎉6

3.04K viewsedited 05:19

VIRSUN

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

1:28

This media is not supported in your browser

VIEW IN TELEGRAM

0:47

This media is not supported in your browser

VIEW IN TELEGRAM

🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts

محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کرده‌اند که مشکل اصلی مدل‌ها را حل می‌کند:
وقتی ویدئو طولانی می‌شود، توجه مدل بیش از حد «پف می‌کند»؛ محاسبات سنگین‌تر می‌شود، جزئیات از بین می‌رود، کاراکترها فراموش می‌شوند و تصویر «سر می‌خورد».

---

🔑 ایده اصلی: Mixture of Contexts

♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم می‌شود.
♻️هر کوئری فقط بخش‌های مرتبط را انتخاب می‌کند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام می‌شود (مقایسه ویژگی بخش‌ها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریم‌های آینده را می‌بندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخش‌های انتخاب‌شده اعمال می‌شود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.

---

📊 نتایج

♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنه‌های طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.

---

🎥 جمع‌بندی

✳️در ویدئوهای کوتاه، کیفیت حفظ می‌شود.
✳️در ویدئوهای طولانی، صحنه‌ها روان‌تر و کاراکترها پایدارتر هستند.
✳️زمان تولید به‌طور محسوسی کاهش می‌یابد.

🔑 نکته مهم:
مدل خودش یاد می‌گیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا می‌کند.

🔖 لینک مقاله

#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو

🎉26👍25❤23🥰23😁22🔥18👏16

3.73K views13:12

VIRSUN

برای تسریع شبکه‌های عصبی کانولوشنی (CNN) روش‌های مختلفی وجود داره که معمولاً در سه دسته‌ی اصلی خلاصه می‌شن:

---

🔹 ۱. بهینه‌سازی معماری (Architecture Optimization)

NAS (Neural Architecture Search):
♻️ جستجوی خودکار برای پیدا کردن معماری سبک‌تر و سریع‌تر.

طراحی دستی سبک‌ها:
♻️مثل MobileNet، ShuffleNet یا EfficientNet که با کانولوشن‌های سبک‌وزن (Depthwise, Pointwise) سرعت رو بالا می‌برن.

---

🔹 ۲. فشرده‌سازی و کاهش پارامترها (Model Compression)

Pruning (هرس کردن):
♻️ حذف کانکشن‌ها، نورون‌ها یا فیلترهای کم‌اهمیت.

Weight Sharing:
♻️ اشتراک‌گذاری وزن‌ها بین فیلترها برای کاهش حافظه.

Knowledge Distillation:
♻️ آموزش یک مدل کوچک (Student) با کمک دانش مدل بزرگ‌تر (Teacher).

---

🔹 ۳. کاهش دقت محاسبات (Quantization & Low-Precision)

Quantization:
♻️ استفاده از نمایش با بیت کمتر (FP16, INT8, حتی FP8) به‌جای FP32.

Binarization / Ternarization:
♻️ محدود کردن وزن‌ها و اکتیویشن‌ها به مقادیر دودویی یا سه‌تایی.

Mixed Precision Training:
♻️استفاده ترکیبی از FP16 و FP32 برای تعادل بین سرعت و دقت.

---

🔹 ۴. بهینه‌سازی سخت‌افزاری و نرم‌افزاری

Fused Operations:
♻️ ادغام چند عملیات (مثلاً Conv + BN + ReLU) در یک کرنل واحد.

CUDA / cuDNN Optimizations:
♻️ استفاده از کتابخانه‌های GPU بهینه‌شده.

Sparse Computation:
♻️ استفاده از ماتریس‌های تنک برای حذف محاسبات بی‌فایده.

Hardware Accelerators:
♻️ استفاده از TPU، NPU یا FPGA برای اجرای سریع‌تر CNN.

---

🔹 ۵. روش‌های سطح سیستم

Batching هوشمند:
♻️ پردازش هم‌زمان چند ورودی برای استفاده بهینه از GPU.

Pipeline Parallelism / Model Parallelism:
♻️ تقسیم مدل یا داده بین چند پردازنده.

Caching و Reuse:
♻️ استفاده مجدد از ویژگی‌ها یا نتایج محاسباتی.

---

👉 در عمل، ترکیبی از این روش‌ها استفاده می‌شه. مثلاً:
یک CNN مثل MobileNetV2 که طراحی سبک داره، می‌تونه بعد از Pruning و Quantization به INT8 روی موبایل یا لبه (Edge) تا چند برابر سریع‌تر بشه بدون افت دقت چشمگیر.

@rss_ai_ir 🤖⚡

#هوش_مصنوعی #CNN #تسریع #کوانتیزیشن #Pruning #NAS #DeepLearning

👏8🥰7👍6😁6❤5🔥5🎉4

3.03K views12:36

About

Blog

Apps

Platform