VIRSUN
14.6K subscribers
472 photos
267 videos
2 files
278 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🔹 کانال توسط اساتید هوش مصنوعی مدیریت میشود
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
🔮 ترفند خلاقانه با img2vid

گاهی برای ساخت یک حرکت سینمایی یا ترنزیشن، فقط کافیست دو تصویر داشته باشی:
👁 اولین فریم
👁 آخرین فریم

📌 وقتی این دو فریم را به مدل‌های img2vid بدهیم، مدل تمام فریم‌های میانی را می‌سازد و یک انیمیشن روان تولید می‌کند.

🔹 نتیجه؟

شبیه حرکت دوربین واقعی 🎥

تغییر زاویه دید یا زوم طبیعی 🔍

ایجاد گذارهای سینمایی


به زبان ساده: به‌جای طراحی تک‌تک فریم‌ها، فقط شروع و پایان را بده، مدل خودش مسیر بین‌شان را پر می‌کند!

#هوش_مصنوعی #تولید_ویدیو #ترنزیشن #AI

🆔 @rss_ai_ir
🔥2👍1👏1
📊 درآمدهای AI Native استارتاپ‌ها

گزارش تازه نشان می‌دهد که استارتاپ‌های «AI native» شامل OpenAI، Anthropic و 16 شرکت دیگر در مجموع به درآمد سالانه ۱۸.۵ میلیارد دلار رسیده‌اند.

🔴 نکته کلیدی:

♻️همچنین OpenAI به‌تنهایی بیشترین سهم را دارد.
♻️بعد از آن Anthropic قرار گرفته است.
♻️سایر شرکت‌ها مثل xAI، Cursor و 14 استارتاپ دیگر هنوز فاصله زیادی با این دو غول دارند.


🟡 در واقع ۲ شرکت اول (OpenAI و Anthropic) نزدیک به ۸۸٪ کل درآمد این حوزه را به خود اختصاص داده‌اند.

💡 بقیه بازیگران مثل Midjourney، Perplexity، Synthesia، Replit، ElevenLabs، Runway و Cohere هنوز در حال رشد هستند، اما فعلاً در لیگ دیگری بازی می‌کنند.

@rss_ai_ir
#AI #استارتاپ #بازار #OpenAI #Anthropic
👍1🔥1👏1
🌟 ا Google Labs یک ابزار جدید برای ارزیابی ساختاریافته‌ی مدل‌های زبانی معرفی کرد.

ابزار Stax یک پروژه‌ی آزمایشی برای توسعه‌دهندگان است که جایگزینی برای تست‌های غیررسمی و اصطلاحاً vibe-testing ارائه می‌دهد و امکان ارزیابی داده‌محور و سیستماتیک مدل‌ها را فراهم می‌سازد.

🔹 همچنین Stax می‌تواند مدل‌ها را با استفاده از ارزیاب‌های آماده یا سفارشی بررسی کند.
🔹 متریک‌های اصلی شامل: روانی پاسخ، ایمنی، تأخیر (latency) و درصد موفقیت در بازبینی دستی هستند.
🔹 داشبوردی برای مقایسه‌ی نتایج مدل‌های مختلف همراه با شاخص‌های بصری عملکرد در دسترس است.

قابلیت‌ها:

♻️ارزیابی سریع و قابل تکرار
♻️امکان شخصی‌سازی متریک‌ها متناسب با محصول
♻️جریان کاری end-to-end از مرحله‌ی نمونه‌سازی تا استقرار


🎯 هدف اصلی: کمک به توسعه‌دهندگان برای تصمیم‌گیری دقیق‌تر در انتخاب و به‌کارگیری مدل‌های زبانی.

@rss_ai_ir

#news #ai #ml #Google #Stax
👍1🔥1👏1
🏓🤖 ربات پینگ‌پنگ‌باز خودران از برکلی

دانشجویان دانشگاه برکلی یک ربات انسان‌نما طراحی کرده‌اند که می‌تواند کاملاً خودکار در مسابقات پینگ‌پنگ شرکت کند. اگر سال گذشته در پروژه‌ی DeepMind فقط یک بازوی رباتیک دیدیم، این بار یک گومانوید کامل با توانایی حرکت و هماهنگی بدن وارد میدان شده است.

🔑 مکانیزم کار HITTER (HumanoId Table TEnnis Robot):

1️⃣ برنامه‌ریز سطح بالا (مغز)

✳️با کمک دوربین‌های خارجی، پرواز توپ را دنبال می‌کند.
✳️مسیر حرکت توپ را پیش‌بینی کرده و محاسبه می‌کند که در چه نقطه‌ای، با چه سرعت و در چه زمان باید ضربه بزند.


2️⃣ کنترلر سطح پایین (بدن)

✳️سیگنال‌های برنامه‌ریز را گرفته و آن‌ها را به حرکات واقعی دست، پا، تنه و مفاصل تبدیل می‌کند.
✳️این بخش با الگوریتم PPO روی داده‌های حرکت انسان آموزش داده شده است، بنابراین ضربات ربات طبیعی و شبیه انسان هستند: قدم برمی‌دارد، تنه می‌چرخاند و مثل بازیکن واقعی راکت را می‌چرخاند.


📊 نتایج عملکرد

✳️92.3٪ موفقیت در برگشت توپ‌ها (فقط یک خطا در هر 26 توپ).
✳️در یک آزمایش، ربات توانست 106 ضربه‌ی متوالی را بدون خطا ادامه دهد.
✳️زمان واکنش: 0.42 ثانیه از لحظه ضربه‌ی حریف تا پاسخ ربات.


🎯 در کل، این یک گام بزرگ در رباتیک ورزشی است. حالا سؤال اینجاست:
آیا روزی می‌توانیم چنین رباتی را برای یک آخر هفته اجاره کنیم و باهاش پینگ‌پنگ بازی کنیم؟ 😅

🔗 مشاهده مقاله
🔥2👍1😁1
🎬 نسل جدید ویدئوهای طولانی با روش Mixture of Contexts

محققان ByteDance و استنفورد روشی نوین برای تولید ویدئوهای طولانی معرفی کرده‌اند که مشکل اصلی مدل‌ها را حل می‌کند:
وقتی ویدئو طولانی می‌شود، توجه مدل بیش از حد «پف می‌کند»؛ محاسبات سنگین‌تر می‌شود، جزئیات از بین می‌رود، کاراکترها فراموش می‌شوند و تصویر «سر می‌خورد».


---

🔑 ایده اصلی: Mixture of Contexts

♻️ویدئو به چند بخش (فریم، شات، کپشن) تقسیم می‌شود.
♻️هر کوئری فقط بخش‌های مرتبط را انتخاب می‌کند، نه کل تاریخچه را.
♻️انتخاب با یک امتیاز شباهت ساده انجام می‌شود (مقایسه ویژگی بخش‌ها با کوئری).
♻️دو «لنگر» همیشه حاضرند: پرامپت کامل و شات محلی برای جزئیات تصویری.
♻️یک ماسک علّی دسترسی به فریم‌های آینده را می‌بندد تا حلقه ایجاد نشود.
♻️در نهایت، Flash Attention فقط روی بخش‌های انتخاب‌شده اعمال می‌شود → رشد محاسبات وابسته به طول کل ویدئو نیست، بلکه فقط به محتوای مفید بستگی دارد.



---

📊 نتایج

♻️۷ برابر کاهش FLOPs
♻️۲.۲ برابر سرعت بیشتر
♻️در صحنه‌های طولانی (۱۸۰هزار توکن)، ۸۵٪ از توجه غیرضروری حذف شد.



---

🎥 جمع‌بندی

✳️در ویدئوهای کوتاه، کیفیت حفظ می‌شود.
✳️در ویدئوهای طولانی، صحنه‌ها روان‌تر و کاراکترها پایدارتر هستند.
✳️زمان تولید به‌طور محسوسی کاهش می‌یابد.


🔑 نکته مهم:
مدل خودش یاد می‌گیرد روی چه چیزی تمرکز کند، بدون نیاز به تغییر معماری پایه؛ یعنی نوعی «حافظه» برای چند دقیقه ویدئو پیدا می‌کند.

🔖 لینک مقاله

#AI #ML #VideoGeneration #ByteDance #Stanford #DeepLearning #GenerativeAI #هوش_مصنوعی #یادگیری_عمیق #ویدئو #تولید_ویدئو
👍2🔥2👏1