VIRSUN
14.7K subscribers
472 photos
267 videos
2 files
278 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🔹 کانال توسط اساتید هوش مصنوعی مدیریت میشود
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 مدل Seed Diffusion؛ معماری متفاوتی از ByteDance در تولید زبان
@rss_ai_ir

شرکت ByteDance، توسعه‌دهنده‌ی TikTok، از یک مدل زبانی جدید به نام Seed Diffusion رونمایی کرده که برخلاف مدل‌های متداول، متن را به‌صورت کامل و هم‌زمان تولید می‌کند — همانند روش‌هایی که در مدل‌های تولید تصویر مانند Midjourney دیده می‌شود.

ویژگی‌های مهم این مدل عبارتند از:
🔸 تولید متن به‌صورت کل‌نگر و نه توکن‌به‌توکن
🔸 دستیابی به سرعتی فراتر از ۲هزار توکن در ثانیه (۵.۴ برابر سریع‌تر از مدل‌های استاندارد)
🔸 عملکرد بهتر در مقایسه با مدل‌های گوگل و Inception Labs در بسیاری از آزمون‌های مرجع
🔸 امکان تست رایگان از طریق پلتفرم Seed Studio

این معماری نوین نشان می‌دهد که ByteDance با قدرت وارد رقابت در حوزه مدل‌های زبانی شده و چشم‌اندازی متفاوت برای آینده‌ی تولید متن ارائه کرده است.

📊 منبع: Crypto Insider

#مدل_زبانی #هوش_مصنوعی #SeedDiffusion #ByteDance #AI
@rss_ai_ir
😁1211👏11👍10🔥9🎉7🥰5
🎥 مدل Waver 1.0 از ByteDance – مدل یکپارچه برای تولید تصویر و ویدیو


شرکت ByteDance با معرفی Waver 1.0 یک گام جدی در حوزه تولید محتوای مولد برداشت. این مدل در رتبه‌بندی جهانی T2V leaderboard و I2V leaderboard به مقام سوم رسیده است.


🔹 ویژگی‌ها:
♻️تولید ویدیو از متن (Text-to-Video) و تصویر از متن (Text-to-Image)
ویدیوهای ۵ و ۱۰ ثانیه‌ای با کیفیت 720p و 1080p
♻️حرکات واقع‌گرایانه در صحنه‌های پیچیده شامل انسان و حیوانات
♻️پشتیبانی از روایت‌های چند‌فریمی با حفظ انسجام داستان، سبک بصری و اتمسفر
♻️تنوع سبک‌های هنری: هایپررئالیسم، انیمیشن، عروسک‌های نرم و …
♻️توانایی نمایش حرکات بزرگ و پیچیده، مثل صحنه‌های ورزشی
♻️امکان چند-دوربینی با حفظ هماهنگی در موضوع اصلی و فضای کلی ویدیو

📌 در حال حاضر کد در گیت‌هاب موجود نیست، اما تجربه آن را از طریق دیسکورد پیشنهاد می‌دهند.
#هوش_مصنوعی #تولید_ویدیو #text2video #text2image #ByteDance #Waver
🆔 @rss_ai_ir
🎉116🔥4😁4👍1
🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts

محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کرده‌اند که مشکل اصلی مدل‌ها را حل می‌کند:
وقتی ویدئو طولانی می‌شود، توجه مدل بیش از حد «پف می‌کند»؛ محاسبات سنگین‌تر می‌شود، جزئیات از بین می‌رود، کاراکترها فراموش می‌شوند و تصویر «سر می‌خورد».


---

🔑 ایده اصلی: Mixture of Contexts

♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم می‌شود.
♻️هر کوئری فقط بخش‌های مرتبط را انتخاب می‌کند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام می‌شود (مقایسه ویژگی بخش‌ها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریم‌های آینده را می‌بندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخش‌های انتخاب‌شده اعمال می‌شود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.



---

📊 نتایج

♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنه‌های طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.



---

🎥 جمع‌بندی

✳️در ویدئوهای کوتاه، کیفیت حفظ می‌شود.
✳️در ویدئوهای طولانی، صحنه‌ها روان‌تر و کاراکترها پایدارتر هستند.
✳️زمان تولید به‌طور محسوسی کاهش می‌یابد.


🔑 نکته مهم:
مدل خودش یاد می‌گیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا می‌کند.

🔖 لینک مقاله

#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
👍1🔥1👏1