🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
🎉26👍25❤23🥰23😁22🔥18👏16
🚀 Higgsfield و UGC Factory:
انقلاب در ساخت ویدیوهای کاربرمحور 🎥✨
هایگزفیلد دوباره برگشته با محصولی تازه به نام UGC Factory که بر پایهی Nano Banana و Veo 3 ساخته شده.
🔹 چیزی که این تیم رو خاص میکنه، اینه که همیشه محصولاتشون رو زود روی کاربرها تست میکنن و به جای تمرکز صرف روی مدل، بیشتر روی خروجی واقعی و تجربهی کاربر کار میکنن.
🔹 از اون طرف، منتقدها میگن که از مدلهای اصلی Higgsfield تقریباً چیزی باقی نمونده و بیشتر شبیه به تجمیعکننده API برای ژنراتورها شدن. (البته نباید فراموش کرد که محصول قبلیشون، Speak 2.0، موفقیت خوبی داشت).
🟢 اما برگردیم به UGC Factory:
ایده اینه که ساخت ویدیوهای تبلیغاتی یا تیکتاکمانند رو به سادهترین حالت برسونه:
1️⃣ انتخاب مدل و محصول/شیء
2️⃣ تولید ۴ تصویر با Nano Banana 🍌
3️⃣ اضافه کردن حرکت (Action)
4️⃣ انتخاب یا اضافه کردن صدا 🎶
5️⃣ انتخاب سبکهای صوتی (Audio styles)
6️⃣ افزودن پسزمینه مناسب
🎯 بدون نیاز به پرامپتهای طولانی یا تنظیمات پیچیده. فقط چند کلیک و خروجی آماده!
📌 لینک تست: Higgsfield UGC Factory
@rss_ai_ir
#AI #UGC #NanoBanana #Veo3 #Higgsfield #VideoGeneration
انقلاب در ساخت ویدیوهای کاربرمحور 🎥✨
هایگزفیلد دوباره برگشته با محصولی تازه به نام UGC Factory که بر پایهی Nano Banana و Veo 3 ساخته شده.
🔹 چیزی که این تیم رو خاص میکنه، اینه که همیشه محصولاتشون رو زود روی کاربرها تست میکنن و به جای تمرکز صرف روی مدل، بیشتر روی خروجی واقعی و تجربهی کاربر کار میکنن.
🔹 از اون طرف، منتقدها میگن که از مدلهای اصلی Higgsfield تقریباً چیزی باقی نمونده و بیشتر شبیه به تجمیعکننده API برای ژنراتورها شدن. (البته نباید فراموش کرد که محصول قبلیشون، Speak 2.0، موفقیت خوبی داشت).
🟢 اما برگردیم به UGC Factory:
ایده اینه که ساخت ویدیوهای تبلیغاتی یا تیکتاکمانند رو به سادهترین حالت برسونه:
1️⃣ انتخاب مدل و محصول/شیء
2️⃣ تولید ۴ تصویر با Nano Banana 🍌
3️⃣ اضافه کردن حرکت (Action)
4️⃣ انتخاب یا اضافه کردن صدا 🎶
5️⃣ انتخاب سبکهای صوتی (Audio styles)
6️⃣ افزودن پسزمینه مناسب
🎯 بدون نیاز به پرامپتهای طولانی یا تنظیمات پیچیده. فقط چند کلیک و خروجی آماده!
📌 لینک تست: Higgsfield UGC Factory
@rss_ai_ir
#AI #UGC #NanoBanana #Veo3 #Higgsfield #VideoGeneration