VIRSUN
13.8K subscribers
496 photos
300 videos
2 files
303 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🔹 کانال توسط اساتید هوش مصنوعی مدیریت میشود
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir
加入频道
🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts

محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کرده‌اند که مشکل اصلی مدل‌ها را حل می‌کند:
وقتی ویدئو طولانی می‌شود، توجه مدل بیش از حد «پف می‌کند»؛ محاسبات سنگین‌تر می‌شود، جزئیات از بین می‌رود، کاراکترها فراموش می‌شوند و تصویر «سر می‌خورد».


---

🔑 ایده اصلی: Mixture of Contexts

♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم می‌شود.
♻️هر کوئری فقط بخش‌های مرتبط را انتخاب می‌کند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام می‌شود (مقایسه ویژگی بخش‌ها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریم‌های آینده را می‌بندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخش‌های انتخاب‌شده اعمال می‌شود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.



---

📊 نتایج

♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنه‌های طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.



---

🎥 جمع‌بندی

✳️در ویدئوهای کوتاه، کیفیت حفظ می‌شود.
✳️در ویدئوهای طولانی، صحنه‌ها روان‌تر و کاراکترها پایدارتر هستند.
✳️زمان تولید به‌طور محسوسی کاهش می‌یابد.


🔑 نکته مهم:
مدل خودش یاد می‌گیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا می‌کند.

🔖 لینک مقاله

#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
🎉26👍2523🥰23😁22🔥18👏16
🚀 Higgsfield و UGC Factory:
انقلاب در ساخت ویدیوهای کاربرمحور 🎥

هایگزفیلد دوباره برگشته با محصولی تازه به نام UGC Factory که بر پایه‌ی Nano Banana و Veo 3 ساخته شده.

🔹 چیزی که این تیم رو خاص می‌کنه، اینه که همیشه محصولاتشون رو زود روی کاربرها تست می‌کنن و به جای تمرکز صرف روی مدل، بیشتر روی خروجی واقعی و تجربه‌ی کاربر کار می‌کنن.
🔹 از اون طرف، منتقدها می‌گن که از مدل‌های اصلی Higgsfield تقریباً چیزی باقی نمونده و بیشتر شبیه به تجمیع‌کننده API برای ژنراتورها شدن. (البته نباید فراموش کرد که محصول قبلی‌شون، Speak 2.0، موفقیت خوبی داشت).

🟢 اما برگردیم به UGC Factory:
ایده اینه که ساخت ویدیوهای تبلیغاتی یا تیک‌تاک‌مانند رو به ساده‌ترین حالت برسونه:

1️⃣ انتخاب مدل و محصول/شیء
2️⃣ تولید ۴ تصویر با Nano Banana 🍌
3️⃣ اضافه کردن حرکت (Action)
4️⃣ انتخاب یا اضافه کردن صدا 🎶
5️⃣ انتخاب سبک‌های صوتی (Audio styles)
6️⃣ افزودن پس‌زمینه مناسب

🎯 بدون نیاز به پرامپت‌های طولانی یا تنظیمات پیچیده. فقط چند کلیک و خروجی آماده!

📌 لینک تست: Higgsfield UGC Factory

@rss_ai_ir

#AI #UGC #NanoBanana #Veo3 #Higgsfield #VideoGeneration