VIRSUN

🌟 مدل MiniCPM-V 4.5؛ رقیب جمع‌وجور غول‌های چندمودالی

پروژه OpenBMB نسخه جدید MiniCPM-V 4.5 را معرفی کرد؛ مدلی چندمودالی بر پایه Qwen3-8B و SigLIP2-400M که توانایی درک تصویر، توالی تصاویر و ویدئو را دارد و حتی روی موبایل هم در بیش از ۳۰ زبان اجرا می‌شود.

این پروژه زیرمجموعه غیرتجاری شرکت ModelBest (زیر نظر دانشگاه Tsinghua چین) است. سرمایه‌گذاران ModelBest شامل هواوی (Habo)، Primavera Capital و صندوق دولتی Shenzhen Guozhong هستند.

---

🔑 ویژگی کلیدی: پردازش کارآمد ویدئو
✔️ استفاده از 3D-Resampler باعث فشرده‌سازی ۹۶ برابری ویدئو می‌شود: هر ۶ فریم در رزولوشن 448x448 فقط به ۶۴ توکن تبدیل می‌شوند (در حالی که اکثر MLLMها به 1536 توکن نیاز دارند).
✔️ این قابلیت امکان پردازش ویدئو با سرعت ۱۰ فریم بر ثانیه و کلیپ‌های طولانی را بدون افزایش هزینه محاسباتی فراهم می‌کند.
✔️ نتایج برتر روی دیتاست‌های Video-MME، LVBench و MLVU تأییدکننده این کارایی است.

---

🖼 توانایی‌های تصویری
با معماری LLaVA-UHD، مدل می‌تواند با تصاویر تا وضوح 1.8 مگاپیکسل و نسبت تصویر آزاد کار کند، آن هم با مصرف ۴ برابر کمتر توکن‌های بصری.

---

⚡ انعطاف در استدلال
مدل دو حالت دارد:

Fast reasoning برای کارهای روزمره

Deep reasoning برای سناریوهای پیچیده

و کاربر می‌تواند بسته به نیاز بین آن‌ها جابه‌جا شود.
---

📊 عملکرد
با داشتن ۸ میلیارد پارامتر، این مدل در بنچمارک OpenCompass امتیاز 77.0 کسب کرده؛ بالاتر از GPT-4o-latest و Gemini-2.0 Pro و حتی بهتر از مدل متن‌باز Qwen2.5-VL با ۷۲ میلیارد پارامتر. همچنین در OmniDocBench رکورد تازه‌ای به نام خود ثبت کرده است.
---

💻 بدون مشکل در استقرار

♻️نسخه CPU با llama.cpp و ollama
♻️نسخه‌های کوانتیزه در فرمت‌های int4، GGUF و AWQ
♻️پشتیبانی از SGLang و vLLM
♻️قابلیت Fine-tuning با Transformers و LLaMA-Factory
♻️رابط کاربری وب و اپ بهینه‌شده برای iOS
---

📌 لینک‌ها
🟡 [Model]
🟡 [Demo]
🟡 [Community Discord]
🖥 [GitHub]

#هوش_مصنوعی #مدل_چندمودالی #MiniCPM #OpenBMB #MLLM #AI_industrial_news

@rss_ai_ir

👍3👏1

3.62K views16:03

VIRSUN

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

⚽ نتایج SoccerNet 2025! ⚽

🔹 رقابت‌های SoccerNet 2025 Challenges یک بنچمارک باز برای پیشبرد تحقیقات در حوزه بینایی کامپیوتری و تحلیل ویدیوهای فوتبال است.
این چالش‌ها روی درک رخدادها، شناسایی بازیکنان و تحلیل بازی تمرکز دارند و نتایج آن راه را برای سیستم‌های هوشمند ورزشی بازتر می‌کنند.

📌 منابع:
👉 Paper (arXiv)
👉 Project Page
👉 GitHub Repo

#AI #ComputerVision #SoccerNet #FootballTech

❤16🎉11👍10🔥7😁4

820 views05:05

VIRSUN

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

🌹 مدل ROSE: حذف اشیا و اثرات محیطی 🌹

یکی از چالش‌های بزرگ در پردازش تصویر، حذف شیء ناخواسته به همراه اثرات محیطی آن است (مثل سایه، بازتاب، نور، شفافیت و آینه).
مدل جدید ROSE (Remove Objects & Effects) دقیقاً همین کار را انجام می‌دهد.

🔸 قابلیت‌ها:

♻️حذف شیء ناخواسته همراه با سایه‌ها و بازتاب‌ها
♻️اصلاح نور و شفافیت محیط
♻️پشتیبانی از آینه و سطوح انعکاسی

🔸 منابع در دسترس:
📄 مرور مقاله
📑 Paper
🌐 پروژه
🤖 مدل در HuggingFace
🖥 دمو
📊 دیتاست

این پیشرفت می‌تونه ابزار قدرتمندی برای طراحان گرافیک، فیلم‌سازان و کاربردهای صنعتی بینایی ماشین باشه. 🚀

#بینایی_ماشین #هوش_مصنوعی #پردازش_تصویر #ROSE #AI

@rss_ai_ir

👍15❤13🔥11😁7🎉6

3.07K viewsedited 08:24

VIRSUN

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

🔻 ربات Unitree A2 توانایی حمل بار تا ۲۵۰ کیلوگرم را دارد!

این ظرفیت بالا می‌تواند انقلابی در کاربردهای صنعتی و خدماتی ایجاد کند:
🔹 حمل بار در معادن و خطوط تولید
🔹 پشتیبانی لجستیکی در انبارها و بنادر
🔹 کمک‌رسانی در عملیات امداد و نجات
🔹 کاربردهای نظامی و امنیتی

❓ اما پرسش اصلی اینجاست: چه زمانی شاهد استفاده گسترده و واقعی از چنین ربات‌هایی در صنایع و شهرها خواهیم بود؟

#رباتیک #اتوماسیون #صنعت۴ #AI_industrial_news
@rss_ai_ir

🎉11❤10👍10🔥9😁8

269 views04:02

VIRSUN

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

🍌 نانو-بانانا، هوش مصنوعی ویرایش تصویر که رتبه ۱ را کسب کرده بود، حالا با نام Gemini 2.5 Flash Image توسط گوگل عرضه شد.

🔹 دارای قابلیت استدلال چندوجهی و استفاده از دانش دنیای واقعی
🔹 پشتیبانی از ویرایش‌های چندمرحله‌ای (multi-turn edits) به‌صورت پایدار
🔹 امکان ترکیب تصاویر و ایجاد خروجی منسجم
🔹 در دسترس برای کاربران رایگان و پولی Gemini

آیا این ابزار می‌تواند آینده ویرایش تصویر در صنعت خلاقیت و تبلیغات را متحول کند؟ 🎨✨

#هوش_مصنوعی #ویرایش_تصویر #Gemini #AI_industrial_news
@rss_ai_ir

🔥15🎉13👍12❤9😁3👏1🙏1

225 viewsedited 04:04

VIRSUN

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 ویدئو‌سازی همزمان با Krea.ai

استارتاپ Krea ثبت‌نام در لیست انتظار برای قابلیت جدید تولید ویدئو در زمان واقعی را آغاز کرد.

⚡ مشخصات:

♻️نرخ فریم بیش از ۱۲ فریم بر ثانیه
♻️ورودی می‌تواند شامل پرامپت متنی، تصویر، اسکرین‌شات یا حتی وبکم باشد
♻️خروجی: ویدئویی که تقریباً به‌صورت همزمان ساخته می‌شود

🖌️ شاید یادتان باشد که Krea اولین تیمی بود که قابلیت نقاشی زنده یا همان تولید تصویر همزمان را معرفی کرد (همزمان با Vizcom). حالا یک گام فراتر رفته و با استفاده از چیزی شبیه به «مدل جهان» توانسته یک زیررندر زنده از آنچه کاربر می‌خواهد ایجاد کند.

🔗 جزئیات بیشتر: krea.ai/blog/announcing-realtime-video

📌 به نظر می‌رسد این قابلیت بتواند انقلابی در طراحی، بازی‌سازی و تولید محتوا به وجود بیاورد.

#ویدئو #هوش_مصنوعی #Realtime #AI #GenerativeAI

@rss_ai_ir

❤7👍6🎉6🔥4😁4

772 viewsedited 11:27

VIRSUN

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

🌈 ردیابی سه‌بعدی چندنما (Multi-View 3D Tracking) 🌈

🔹 پروژه MVTracker به‌عنوان اولین سیستم داده‌محور برای ردیابی نقاط سه‌بعدی دلخواه در چندین دوربین معرفی شد. این روش امکان ردیابی دقیق اشیاء و نقاط را از زوایای مختلف فراهم می‌کند.

📊 دسترسی‌ها:
👉 مقاله (arXiv)
👉 پروژه
👉 مخزن کد (Repo)

#AI #ComputerVision #3DTracking #هوش_مصنوعی #بینایی_ماشین

@rss_ai_ir

🔥9🎉9👍5❤1😁1🙏1👌1

774 viewsedited 13:05

VIRSUN

📉 شوک بازار کار؛ بیکاری جوانان در حوزه نرم‌افزار و خدمات مشتری

🔹 در ابتدا تصور می‌شد افزایش بیکاری میان توسعه‌دهندگان نرم‌افزار ناشی از استخدام بیش‌ازحد در سال‌های قبل است.
🔹 اما داده‌های جدید نشان می‌دهد موضوع فراتر از این است: بخش‌هایی مانند Junior Software Developers (22–25 ساله) و خدمات مشتری بیشترین ضربه را خورده‌اند.
🔹 اشتغال جوانان توسعه‌دهنده نرم‌افزار نسبت به اوج سال ۲۰۲۲ حدود ۲۰٪ کاهش یافته، در حالی که برای گروه‌های سنی بالاتر روند استخدام همچنان صعودی است.
🔹 الگوی مشابهی در خدمات مشتری دیده می‌شود؛ حوزه‌ای که به شدت در معرض جایگزینی با هوش مصنوعی قرار دارد.

⚠️ به بیان ساده، تقاضا برای نیروهای تازه‌وارد در این صنایع تقریبا از بین رفته است.
داریو آمودئی نیز پیش‌تر نسبت به این موج بیکاری هشدار داده بود.

@rss_ai_ir

#بیکاری #بازارکار #هوش_مصنوعی #AI #Software #CustomerService

👍9🔥5😁5🎉5❤2

1.44K views13:29

VIRSUN

📌 خبر مهم از Anthropic

🔻 شرکت Anthropic رسماً اعلام کرده که قصد دارد مدل‌های خود (مثل Claude) را روی داده‌های کاربران هم آموزش دهد. این داده‌ها شامل تاریخچه چت‌ها و سشن‌های کدنویسی می‌شود.

🗓️ همه کاربران تا تاریخ ۲۸ سپتامبر ۲۰۲۵ باید تصمیم بگیرند که آیا اجازه استفاده از داده‌هایشان برای آموزش داده شود یا خیر.

🔑 جزئیات مهم:

♻️به صورت پیش‌فرض ❌ داده‌های شما استفاده نمی‌شوند. برای اشتراک‌گذاری باید حتماً روی گزینه Accept کلیک کنید.

♻️این سیاست فقط شامل چت‌های جدید یا دوباره شروع‌شده می‌شود. داده‌های قدیمی مشمول آن نخواهند بود.

♻️اگر قبول کنید، داده‌هایتان می‌توانند تا ۵ سال ذخیره شوند.

♻️این تغییر فقط برای کاربران عادی (Free, Pro, Max) اعمال می‌شود. API، Claude for Work، Gov و Education شامل آن نیستند.

♻️همچنین Anthropic تأکید کرده که کاربران حق انتخاب دارند و داده‌های حساس فیلتر یا ماسک می‌شوند.

⚡️ جمع‌بندی: این موضوع دیر یا زود اتفاق می‌افتاد، اما حداقل Anthropic به‌طور شفاف اطلاع‌رسانی کرده و به کاربران اختیار داده است.

🔗 متن کامل خبر

#AI_news #Claude #Anthropic #حریم_خصوصی

@rss_ai_ir

👍9🎉7❤4😁4🔥2

1.37K viewsedited 17:52

VIRSUN

🚀 معرفی Environments Hub؛ فروشگاه باز برای RL-Agents

🔹 شرکت Prime Intellect اولین پلتفرم باز برای ساخت و استفاده از محیط‌های یادگیری تقویتی (RL Environments) را معرفی کرد.

🌍 محیط RL همان دنیای مجازی‌ای است که قوانین و سیستم پاداش آن تعریف می‌شود تا عامل‌ها در آن آموزش ببینند.

✍️ مشکل اصلی اینجاست: ساخت یک محیط واقعی و پیچیده برای آموزش، بسیار پرهزینه است. مثلاً برای آموزش یک عامل برنامه‌نویس نیاز به:

✳️محیط شبیه‌سازی شده IDE با کامپایلر و دیباگر
✳️تعریف دقیق Reward Function
✳️ابزارهای مانیتورینگ و پایپ‌لاین آموزش
✳️مجموعه داده‌های واقعی و Edge-caseهای متعدد
✳️چنین چیزی در آزمایشگاه‌های بزرگ میلیون‌ها دلار هزینه دارد و در اوپن‌سورس تقریباً مشابهی وجود نداشت.

⚡ حالا Environments Hub این مشکل را حل می‌کند:

♻️اولین و تنها استور باز برای محیط‌های آماده RL
♻️شامل محیط‌هایی برای آموزش عامل‌های برنامه‌نویس، ریاضی‌دان، گیمر و بسیاری حوزه‌های دیگر
♻️کاهش چشمگیر هزینه و زمان توسعه RL

💡 آندری کارپاتی هم این حرکت را به شدت تحسین کرده و آن را یک تغییر بازی (Game Changer) در توسعه عامل‌ها دانسته است.

🔗 خودتان ببینید: Environments Hub

#هوش_مصنوعی #RL #یادگیری_تقویتی #AI_industrial_news #Agents

@rss_ai_ir

😁10🔥6❤4🎉3👍1

3.56K viewsedited 17:56

VIRSUN

⚡️ معرفی OLMoASR؛ مدل‌های باز تشخیص گفتار از AI2

مؤسسه هوش مصنوعی آلن (AI2) خانواده‌ای از مدل‌های تشخیص خودکار گفتار (ASR) به نام OLMoASR منتشر کرده است.

🎙️ مدل‌ها:

🟢 OLMoASR-tiny.en (۳۹M)

🟢 OLMoASR-base.en (۷۴M)

🟢 OLMoASR-small.en (۲۴۴M)

🟢 OLMoASR-medium.en (۷۶۹M)

🟠 OLMoASR-large.en-v1
(۱.۵B، آموزش‌دیده بر روی ۴۴۰ هزار ساعت صوت)

🟠 OLMoASR-large.en-v2
(۱.۵B، آموزش‌دیده بر روی ۶۸۰ هزار ساعت صوت)

📊 در تست روی ۲۱ دیتاست، عملکرد این مدل‌ها با Whisper از OpenAI قابل مقایسه بوده و در بعضی موارد، به‌ویژه روی فایل‌های صوتی طولانی، حتی از آن هم بهتر عمل کرده‌اند.

🔓 پروژه کاملاً اپن‌سورس است:

♻️انتشار وزن مدل‌ها
♻️دیتاست و کد پردازش داده‌ها
♻️اسکریپت‌های آموزش و ارزیابی
♻️همه در GitHub و Hugging Face در دسترس هستند.

📌 لایسنس: Apache 2.0

🟡 مقاله
🟡 مجموعه مدل‌ها
🟡 گزارش فنی
🟡 دمو
🖥 GitHub

#هوش_مصنوعی #تشخیص_گفتار #ASR #AI2 #OLMoASR #AI_industrial_news

@rss_ai_ir

❤7👍6🔥6🎉6

3.57K views18:05

VIRSUN

💡 یکی از جالب‌ترین کاربردهای Nano-Banana همین مینی‌اپ تازه‌دستکاری‌شده است:

📌 کافیست تصویر یک شیء را از کلیپ‌بورد وارد کنید؛ برنامه به‌صورت خودکار آن را به ایزومتریک تبدیل می‌کند تا بتوانید قطعات لازم برای ساختن SimCity رویایی خودتان را بچینید 🏙️✨

🔧 تغییرات جدید:

♻️افزودن امکان تغییر اندازه (Resize)
♻️بهبودهای کوچک در رابط و خروجی

🌎 امتحان کنید:
https://ai.studio/apps/drive/1xxdOG6VnJzfz8CmO5k6TWFosjoA8Xr63

@rss_ai_ir

#nano_banana #isometric #SimCity #AItools #AI

👍1🔥1👏1

770 views07:43

VIRSUN

📌 لیست سالانه Time 100 AI منتشر شد

📰 مجله‌ی TIME مثل هر سال فهرست ۱۰۰ فرد تأثیرگذار در حوزه هوش مصنوعی رو منتشر کرده. در صدر اسامی، چهره‌های آشنا دیده می‌شن:
سام آلتمان، ایلان ماسک، جنسن هوانگ، متیو پرینس (Cloudflare)، مارک زاکربرگ، برادران آمودئی، وِین‌فِن و چندین نام بزرگ دیگه.

اما 😅 همه‌چیز به این سادگی هم نیست...
چون غیبت بعضی غول‌ها حسابی توی چشم می‌زنه:

❌ ایلیا سوتسکِوِر
❌ جفری هینتون
❌ دِمیس هاسابیس
❌ نوآم براون
❌ یان لِکون
❌ مصطفی سلیمان
❌ آراوینگ سری‌نیواس

در عوض، افرادی توی لیست دیده می‌شن که شاید انتظارش رو نداشتید:

✅ پاپ فرانسیس!
✅ ریک روبین (همون چهره‌ی وایرالِ "وایب‌کُدینگ" 🤣)
✅ چند نویسنده، هنرمند و روزنامه‌نگار

👀 نتیجه؟ ترکیب امسال کمی «عجیب» از آب دراومده. بعضی‌ها حس کردن به جای تمرکز روی پیشگامان علمی، کمی بیش‌تر به جنبه‌ی فرهنگی و رسانه‌ای توجه شده.

🔗 لیست کامل رو می‌تونید اینجا ببینید: time.com/collections/time100-ai-2025/

@rss_ai_ir

#news #ai #ml #Time100 #AIInfluencers

❤1👍1🔥1👏1

700 views11:28

About

Blog

Apps

Platform