VIRSUN

🚀 مدل Seed Diffusion؛ معماری متفاوتی از ByteDance در تولید زبان
@rss_ai_ir

شرکت ByteDance، توسعه‌دهنده‌ی TikTok، از یک مدل زبانی جدید به نام Seed Diffusion رونمایی کرده که برخلاف مدل‌های متداول، متن را به‌صورت کامل و هم‌زمان تولید می‌کند — همانند روش‌هایی که در مدل‌های تولید تصویر مانند Midjourney دیده می‌شود.

ویژگی‌های مهم این مدل عبارتند از:
🔸 تولید متن به‌صورت کل‌نگر و نه توکن‌به‌توکن
🔸 دستیابی به سرعتی فراتر از ۲هزار توکن در ثانیه (۵.۴ برابر سریع‌تر از مدل‌های استاندارد)
🔸 عملکرد بهتر در مقایسه با مدل‌های گوگل و Inception Labs در بسیاری از آزمون‌های مرجع
🔸 امکان تست رایگان از طریق پلتفرم Seed Studio

این معماری نوین نشان می‌دهد که ByteDance با قدرت وارد رقابت در حوزه مدل‌های زبانی شده و چشم‌اندازی متفاوت برای آینده‌ی تولید متن ارائه کرده است.

📊 منبع: Crypto Insider

#مدل_زبانی #هوش_مصنوعی #SeedDiffusion #ByteDance #AI
@rss_ai_ir

😁12❤11👏11👍10🔥9🎉7🥰5

808 views11:32

VIRSUN

1:03

This media is not supported in your browser

VIEW IN TELEGRAM

1:02

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 مدل Waver 1.0 از ByteDance – مدل یکپارچه برای تولید تصویر و ویدیو

شرکت ByteDance با معرفی Waver 1.0 یک گام جدی در حوزه تولید محتوای مولد برداشت. این مدل در رتبه‌بندی جهانی T2V leaderboard و I2V leaderboard به مقام سوم رسیده است.

🔹 ویژگی‌ها:
♻️تولید ویدیو از متن (Text-to-Video) و تصویر از متن (Text-to-Image)
ویدیوهای ۵ و ۱۰ ثانیه‌ای با کیفیت 720p و 1080p
♻️حرکات واقع‌گرایانه در صحنه‌های پیچیده شامل انسان و حیوانات
♻️پشتیبانی از روایت‌های چند‌فریمی با حفظ انسجام داستان، سبک بصری و اتمسفر
♻️تنوع سبک‌های هنری: هایپررئالیسم، انیمیشن، عروسک‌های نرم و …
♻️توانایی نمایش حرکات بزرگ و پیچیده، مثل صحنه‌های ورزشی
♻️امکان چند-دوربینی با حفظ هماهنگی در موضوع اصلی و فضای کلی ویدیو

📌 در حال حاضر کد در گیت‌هاب موجود نیست، اما تجربه آن را از طریق دیسکورد پیشنهاد می‌دهند.
#هوش_مصنوعی #تولید_ویدیو #text2video #text2image #ByteDance #Waver
🆔 @rss_ai_ir

🎉11❤6🔥4😁4👍1

798 views12:52

VIRSUN

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

1:28

This media is not supported in your browser

VIEW IN TELEGRAM

0:47

This media is not supported in your browser

VIEW IN TELEGRAM

🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts

محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کرده‌اند که مشکل اصلی مدل‌ها را حل می‌کند:
وقتی ویدئو طولانی می‌شود، توجه مدل بیش از حد «پف می‌کند»؛ محاسبات سنگین‌تر می‌شود، جزئیات از بین می‌رود، کاراکترها فراموش می‌شوند و تصویر «سر می‌خورد».

---

🔑 ایده اصلی: Mixture of Contexts

♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم می‌شود.
♻️هر کوئری فقط بخش‌های مرتبط را انتخاب می‌کند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام می‌شود (مقایسه ویژگی بخش‌ها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریم‌های آینده را می‌بندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخش‌های انتخاب‌شده اعمال می‌شود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.

---

📊 نتایج

♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنه‌های طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.

---

🎥 جمع‌بندی

✳️در ویدئوهای کوتاه، کیفیت حفظ می‌شود.
✳️در ویدئوهای طولانی، صحنه‌ها روان‌تر و کاراکترها پایدارتر هستند.
✳️زمان تولید به‌طور محسوسی کاهش می‌یابد.

🔑 نکته مهم:
مدل خودش یاد می‌گیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا می‌کند.

🔖 لینک مقاله

#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو

👍1🔥1👏1

61 views13:12

About

Blog

Apps

Platform