Media is too big
VIEW IN TELEGRAM
🌟 مدل MiniCPM-V 4.5؛ رقیب جمعوجور غولهای چندمودالی
پروژه OpenBMB نسخه جدید MiniCPM-V 4.5 را معرفی کرد؛ مدلی چندمودالی بر پایه Qwen3-8B و SigLIP2-400M که توانایی درک تصویر، توالی تصاویر و ویدئو را دارد و حتی روی موبایل هم در بیش از ۳۰ زبان اجرا میشود.
این پروژه زیرمجموعه غیرتجاری شرکت ModelBest (زیر نظر دانشگاه Tsinghua چین) است. سرمایهگذاران ModelBest شامل هواوی (Habo)، Primavera Capital و صندوق دولتی Shenzhen Guozhong هستند.
---
🔑 ویژگی کلیدی: پردازش کارآمد ویدئو
✔️ استفاده از 3D-Resampler باعث فشردهسازی ۹۶ برابری ویدئو میشود: هر ۶ فریم در رزولوشن 448x448 فقط به ۶۴ توکن تبدیل میشوند (در حالی که اکثر MLLMها به 1536 توکن نیاز دارند).
✔️ این قابلیت امکان پردازش ویدئو با سرعت ۱۰ فریم بر ثانیه و کلیپهای طولانی را بدون افزایش هزینه محاسباتی فراهم میکند.
✔️ نتایج برتر روی دیتاستهای Video-MME، LVBench و MLVU تأییدکننده این کارایی است.
---
🖼 تواناییهای تصویری
با معماری LLaVA-UHD، مدل میتواند با تصاویر تا وضوح 1.8 مگاپیکسل و نسبت تصویر آزاد کار کند، آن هم با مصرف ۴ برابر کمتر توکنهای بصری.
---
⚡ انعطاف در استدلال
مدل دو حالت دارد:
Fast reasoning برای کارهای روزمره
Deep reasoning برای سناریوهای پیچیده
و کاربر میتواند بسته به نیاز بین آنها جابهجا شود.
---
📊 عملکرد
با داشتن ۸ میلیارد پارامتر، این مدل در بنچمارک OpenCompass امتیاز 77.0 کسب کرده؛ بالاتر از GPT-4o-latest و Gemini-2.0 Pro و حتی بهتر از مدل متنباز Qwen2.5-VL با ۷۲ میلیارد پارامتر. همچنین در OmniDocBench رکورد تازهای به نام خود ثبت کرده است.
---
💻 بدون مشکل در استقرار
♻️نسخه CPU با llama.cpp و ollama
♻️نسخههای کوانتیزه در فرمتهای int4، GGUF و AWQ
♻️پشتیبانی از SGLang و vLLM
♻️قابلیت Fine-tuning با Transformers و LLaMA-Factory
♻️رابط کاربری وب و اپ بهینهشده برای iOS
---
📌 لینکها
🟡 [Model]
🟡 [Demo]
🟡 [Community Discord]
🖥 [GitHub]
#هوش_مصنوعی #مدل_چندمودالی #MiniCPM #OpenBMB #MLLM #AI_industrial_news
@rss_ai_ir
پروژه OpenBMB نسخه جدید MiniCPM-V 4.5 را معرفی کرد؛ مدلی چندمودالی بر پایه Qwen3-8B و SigLIP2-400M که توانایی درک تصویر، توالی تصاویر و ویدئو را دارد و حتی روی موبایل هم در بیش از ۳۰ زبان اجرا میشود.
این پروژه زیرمجموعه غیرتجاری شرکت ModelBest (زیر نظر دانشگاه Tsinghua چین) است. سرمایهگذاران ModelBest شامل هواوی (Habo)، Primavera Capital و صندوق دولتی Shenzhen Guozhong هستند.
---
🔑 ویژگی کلیدی: پردازش کارآمد ویدئو
✔️ استفاده از 3D-Resampler باعث فشردهسازی ۹۶ برابری ویدئو میشود: هر ۶ فریم در رزولوشن 448x448 فقط به ۶۴ توکن تبدیل میشوند (در حالی که اکثر MLLMها به 1536 توکن نیاز دارند).
✔️ این قابلیت امکان پردازش ویدئو با سرعت ۱۰ فریم بر ثانیه و کلیپهای طولانی را بدون افزایش هزینه محاسباتی فراهم میکند.
✔️ نتایج برتر روی دیتاستهای Video-MME، LVBench و MLVU تأییدکننده این کارایی است.
---
🖼 تواناییهای تصویری
با معماری LLaVA-UHD، مدل میتواند با تصاویر تا وضوح 1.8 مگاپیکسل و نسبت تصویر آزاد کار کند، آن هم با مصرف ۴ برابر کمتر توکنهای بصری.
---
⚡ انعطاف در استدلال
مدل دو حالت دارد:
Fast reasoning برای کارهای روزمره
Deep reasoning برای سناریوهای پیچیده
و کاربر میتواند بسته به نیاز بین آنها جابهجا شود.
---
📊 عملکرد
با داشتن ۸ میلیارد پارامتر، این مدل در بنچمارک OpenCompass امتیاز 77.0 کسب کرده؛ بالاتر از GPT-4o-latest و Gemini-2.0 Pro و حتی بهتر از مدل متنباز Qwen2.5-VL با ۷۲ میلیارد پارامتر. همچنین در OmniDocBench رکورد تازهای به نام خود ثبت کرده است.
---
💻 بدون مشکل در استقرار
♻️نسخه CPU با llama.cpp و ollama
♻️نسخههای کوانتیزه در فرمتهای int4، GGUF و AWQ
♻️پشتیبانی از SGLang و vLLM
♻️قابلیت Fine-tuning با Transformers و LLaMA-Factory
♻️رابط کاربری وب و اپ بهینهشده برای iOS
---
📌 لینکها
🟡 [Model]
🟡 [Demo]
🟡 [Community Discord]
🖥 [GitHub]
#هوش_مصنوعی #مدل_چندمودالی #MiniCPM #OpenBMB #MLLM #AI_industrial_news
@rss_ai_ir
👍3👏1