This media is not supported in your browser
VIEW IN TELEGRAM
🚀 مدل Seed Diffusion؛ معماری متفاوتی از ByteDance در تولید زبان
@rss_ai_ir
شرکت ByteDance، توسعهدهندهی TikTok، از یک مدل زبانی جدید به نام Seed Diffusion رونمایی کرده که برخلاف مدلهای متداول، متن را بهصورت کامل و همزمان تولید میکند — همانند روشهایی که در مدلهای تولید تصویر مانند Midjourney دیده میشود.
ویژگیهای مهم این مدل عبارتند از:
🔸 تولید متن بهصورت کلنگر و نه توکنبهتوکن
🔸 دستیابی به سرعتی فراتر از ۲هزار توکن در ثانیه (۵.۴ برابر سریعتر از مدلهای استاندارد)
🔸 عملکرد بهتر در مقایسه با مدلهای گوگل و Inception Labs در بسیاری از آزمونهای مرجع
🔸 امکان تست رایگان از طریق پلتفرم Seed Studio
این معماری نوین نشان میدهد که ByteDance با قدرت وارد رقابت در حوزه مدلهای زبانی شده و چشماندازی متفاوت برای آیندهی تولید متن ارائه کرده است.
📊 منبع: Crypto Insider
#مدل_زبانی #هوش_مصنوعی #SeedDiffusion #ByteDance #AI
@rss_ai_ir
@rss_ai_ir
شرکت ByteDance، توسعهدهندهی TikTok، از یک مدل زبانی جدید به نام Seed Diffusion رونمایی کرده که برخلاف مدلهای متداول، متن را بهصورت کامل و همزمان تولید میکند — همانند روشهایی که در مدلهای تولید تصویر مانند Midjourney دیده میشود.
ویژگیهای مهم این مدل عبارتند از:
🔸 تولید متن بهصورت کلنگر و نه توکنبهتوکن
🔸 دستیابی به سرعتی فراتر از ۲هزار توکن در ثانیه (۵.۴ برابر سریعتر از مدلهای استاندارد)
🔸 عملکرد بهتر در مقایسه با مدلهای گوگل و Inception Labs در بسیاری از آزمونهای مرجع
🔸 امکان تست رایگان از طریق پلتفرم Seed Studio
این معماری نوین نشان میدهد که ByteDance با قدرت وارد رقابت در حوزه مدلهای زبانی شده و چشماندازی متفاوت برای آیندهی تولید متن ارائه کرده است.
📊 منبع: Crypto Insider
#مدل_زبانی #هوش_مصنوعی #SeedDiffusion #ByteDance #AI
@rss_ai_ir
😁12❤11👏11👍10🔥9🎉7🥰5
🎥 مدل Waver 1.0 از ByteDance – مدل یکپارچه برای تولید تصویر و ویدیو
شرکت ByteDance با معرفی Waver 1.0 یک گام جدی در حوزه تولید محتوای مولد برداشت. این مدل در رتبهبندی جهانی T2V leaderboard و I2V leaderboard به مقام سوم رسیده است.
🔹 ویژگیها:
♻️تولید ویدیو از متن (Text-to-Video) و تصویر از متن (Text-to-Image)
ویدیوهای ۵ و ۱۰ ثانیهای با کیفیت 720p و 1080p
♻️حرکات واقعگرایانه در صحنههای پیچیده شامل انسان و حیوانات
♻️پشتیبانی از روایتهای چندفریمی با حفظ انسجام داستان، سبک بصری و اتمسفر
♻️تنوع سبکهای هنری: هایپررئالیسم، انیمیشن، عروسکهای نرم و …
♻️توانایی نمایش حرکات بزرگ و پیچیده، مثل صحنههای ورزشی
♻️امکان چند-دوربینی با حفظ هماهنگی در موضوع اصلی و فضای کلی ویدیو
📌 در حال حاضر کد در گیتهاب موجود نیست، اما تجربه آن را از طریق دیسکورد پیشنهاد میدهند.
#هوش_مصنوعی #تولید_ویدیو #text2video #text2image #ByteDance #Waver
🆔 @rss_ai_ir
شرکت ByteDance با معرفی Waver 1.0 یک گام جدی در حوزه تولید محتوای مولد برداشت. این مدل در رتبهبندی جهانی T2V leaderboard و I2V leaderboard به مقام سوم رسیده است.
🔹 ویژگیها:
♻️تولید ویدیو از متن (Text-to-Video) و تصویر از متن (Text-to-Image)
ویدیوهای ۵ و ۱۰ ثانیهای با کیفیت 720p و 1080p
♻️حرکات واقعگرایانه در صحنههای پیچیده شامل انسان و حیوانات
♻️پشتیبانی از روایتهای چندفریمی با حفظ انسجام داستان، سبک بصری و اتمسفر
♻️تنوع سبکهای هنری: هایپررئالیسم، انیمیشن، عروسکهای نرم و …
♻️توانایی نمایش حرکات بزرگ و پیچیده، مثل صحنههای ورزشی
♻️امکان چند-دوربینی با حفظ هماهنگی در موضوع اصلی و فضای کلی ویدیو
📌 در حال حاضر کد در گیتهاب موجود نیست، اما تجربه آن را از طریق دیسکورد پیشنهاد میدهند.
#هوش_مصنوعی #تولید_ویدیو #text2video #text2image #ByteDance #Waver
🆔 @rss_ai_ir
🎉11❤6🔥4😁4👍1
🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کردهاند که مشکل اصلی مدلها را حل میکند:
وقتی ویدئو طولانی میشود، توجه مدل بیش از حد «پف میکند»؛ محاسبات سنگینتر میشود، جزئیات از بین میرود، کاراکترها فراموش میشوند و تصویر «سر میخورد».
---
🔑 ایده اصلی: Mixture of Contexts
♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم میشود.
♻️هر کوئری فقط بخشهای مرتبط را انتخاب میکند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام میشود (مقایسه ویژگی بخشها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریمهای آینده را میبندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخشهای انتخابشده اعمال میشود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.
---
📊 نتایج
♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنههای طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.
---
🎥 جمعبندی
✳️در ویدئوهای کوتاه، کیفیت حفظ میشود.
✳️در ویدئوهای طولانی، صحنهها روانتر و کاراکترها پایدارتر هستند.
✳️زمان تولید بهطور محسوسی کاهش مییابد.
🔑 نکته مهم:
مدل خودش یاد میگیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا میکند.
🔖 لینک مقاله
#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
👍2🔥2👏1