VIRSUN

🌍 معرفی MCP-Universe: بِنچمارک جدید Salesforce برای LLMها با سرورهای MCP

🔹 شرکت Salesforce یک بِنچمارک تازه منتشر کرده که توانایی مدل‌های زبانی بزرگ (LLM) را در کار با MCP (Model Context Protocol) می‌سنجد. MCP که اواخر ۲۰۲۴ توسط Anthropic معرفی شد، پروتکلی است برای اتصال LLM به سرویس‌ها و منابع داده‌ی بیرونی (مثل ابزارها و APIها).

---

🔎 ساختار بِنچمارک

♻️شامل ۱۱ MCP سرور با ۱۳۳ ابزار در ۶ حوزه مختلف
♻️در مجموع ۲۳۱ تسک واقعی طراحی شد، که هرکدام نیازمند یک یا چند تعامل MCP هستند

📌 نمونه حوزه‌ها و زیرتسک‌ها:

🗺 ناوبری روی نقشه: مسیریابی، ایستگاه‌های بهینه، جستجوی مکان و جستجو بر اساس ID

💻 مدیریت ریپازیتوری کد: تنظیم پروژه، ترکینگ مشکلات، اتوماسیون و ادغام کد

💰 تحلیل مالی: پورتفولیو، گزارش‌دهی، استراتژی معاملاتی، دارایی‌های نهادی، تحلیل سود سهام

🎨 طراحی سه‌بعدی (Blender): ساخت آبجکت، متریال، نورپردازی، رندر و سازمان‌دهی صحنه

🌐 اتوماسیون مرورگر: رزرو بلیط، تحلیل ورزشی، ریسرچ آکادمیک، پلتفرم آنالیز و ناوبری نقشه

🔎 وب‌سرچ: شناسایی افراد، استخراج موجودیت‌ها، متریک مَچینگ، استدلال پیچیده، فکت چک

---

⚙️ روش ارزیابی

♻️بررسی صحت فرمت پاسخ
♻️مقایسه ساده با جواب درست
♻️ارزیابی داینامیک (برای پرسش‌هایی مثل «امروز هوا چطوره» که پاسخ ثابت ندارند)

❗️ بخش بزرگی از تسک‌ها بیش از ۵ تماس با MCP نیاز دارند، یعنی مدل باید توانایی کار با کانتکست‌های طولانی و زنجیره تعاملات پیچیده را داشته باشد. همچنین تسک‌های بیش‌ازحد ساده یا مستقل از MCP فیلتر شدند.

---

✅ اهمیت این بِنچمارک در اینه که داره اولین بار مهارت واقعی LLMها در تعامل با ابزارهای بیرونی و حل مسائل دنیای واقعی رو می‌سنجه، نه فقط پرسش و پاسخ متنی.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #AI_Benchmark #صنعت

🔥13❤12👍12🎉8😁6

259 views04:47

VIRSUN

📊 نتایج بنچمارک MCP-Universe

تست‌های تازه‌ی MCP-Universe یک برنده‌ی مشخص داشتند: GPT-5 با اختلاف زیاد در صدر قرار گرفت:

🏆 نرخ موفقیت (SR) → ۴۳.۷٪

🏆 امتیاز ارزیابان (AE) → ۶۰.۲٪

📈 در تمام حوزه‌ها پیشتاز است، به جز Browser Automation که کمی بهتر از آن Grok-4 عمل کرده.

---

🔎 جزئیات بر اساس حوزه‌ها:

✅تحلیل مالی (Financial Analysis) → رکورد GPT-5 با ۶۷.۵٪؛ فاصله‌ی چشمگیر از بقیه.

✅طراحی سه‌بعدی (3D Designing) → باز هم صدرنشین با ۵۲.۶٪.

✅مدیریت مخزن کد (Repository Management) → GPT-5 با ۳۰.۳٪ به‌وضوح بالاتر از رقباست.

✅اتوماسیون مرورگر (Browser Automation) → این‌جا شگفتی رقم خورد: Grok-4 با ۴۱.۰٪ جلوتر از GPT-5 (۳۵.۹٪).

---

🟢 در میان مدل‌های متن‌باز (Open-Source):

♻️مدل GLM-4.5 بهترین عملکرد را داشت با ۲۴.۷٪ SR و ۴۱.۲٪ AE.

♻️مدل Kimi-K2 با وجود تبلیغات زیاد درباره‌ی آموزش ویژه برای MCP، تنها به ۱۹٪ SR رسید.

---

⚠️ نکته‌ی مهم: حتی رهبر جدول یعنی GPT-5 هم نتوانست از مرز ۵۰٪ کیفیت نهایی عبور کند. این نشان می‌دهد که تعامل LLMها با سرورهای MCP هنوز راه زیادی تا بلوغ کامل دارد، و این وظایف واقعاً پیچیده و چندلایه هستند.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #GPT5 #Benchmarks

❤15😁11🔥9👍8🎉8

227 views04:47

VIRSUN

🚀 میسترال آپدیت‌های جدیدی برای دستیار Le Chat معرفی کرد:

🔹 اضافه شدن بیش از ۲۰ کانکتور مبتنی بر MCP — از دیتابریکس و اسنو‌فلیک گرفته تا گیت‌هاب و آسانا.
🔹 قابلیت جدید Memories — دستیار اکنون می‌تواند تعاملات مهم را به خاطر بسپارد و کاربر به‌طور کامل کنترل دارد (افزودن، ویرایش و حذف حافظه).

این تغییرات باعث می‌شود Le Chat به یکی از کاربردی‌ترین و آماده‌ترین دستیارهای هوش مصنوعی برای کسب‌وکارها تبدیل شود.

🟠 جزئیات: لینک خبر

📌 می‌توانید از طریق وب‌سایت chat.mistral.ai یا اپلیکیشن موبایل آن را امتحان کنید.

@rss_ai_ir

#MistralAI #LeChat #AIassistant #MCP

❤1👍1🔥1🥰1

127 views02:50

🎤 اوپن‌اِی‌آی مدل gpt-realtime را معرفی کرد؛ یک مدل پیشرفته speech-to-speech با پشتیبانی از MCPهای ریموت و ورودی تصویری.

✨ قابلیت‌ها:

✳️درک نشانه‌های غیرکلامی (nonverbal cues) در مکالمه
✳️تغییر زبان حین گفتگو با حفظ جریان طبیعی
✳️پشتیبانی همزمان از صدا و تصویر

📊 امتیاز خیره‌کننده ۸۲.۸٪ روی بنچمارک‌های استدلال صوتی (audio reasoning)

این مدل می‌تواند نقطه عطفی در ساخت دستیارهای هوشمند مکالمه‌ای باشد.

@rss_ai_ir

#OpenAI #GPTRealtime #SpeechAI #AI #MCP #VoiceAssistant

👍1🔥1👏1

63 views10:20

About

Blog

Apps

Platform