VIRSUN

🧠 نتایج جالب تست IQ برای مدل‌های هوش مصنوعی

طبق داده‌های TrackingAI.org، در تست آفلاین (که مدل‌ها قبلاً آن را ندیده بودند)، مدل GPT-5 Pro توانسته امتیاز IQ = 123 را به دست آورد — بالاترین نمره بین تمام مدل‌های موجود در این مقایسه.

📊 این تست شامل ۱۸ آزمون کلامی و ۱۲ آزمون بینایی است و میانگین امتیاز از آخرین ۷ آزمون برای هر مدل محاسبه شده است.

✨ نکته مهم اینجاست که تست آفلاین به معنی عدم وجود داده‌ها در آموزش مدل است، بنابراین نتایج بازتابی واقعی از توانایی استدلال مدل‌ها محسوب می‌شود.

🔗 جزئیات بیشتر و نمودار کامل در TrackingAI.org

#هوش_مصنوعی 🤖 #GPT5 #تست_IQ #AI_Benchmark #ارزیابی_مدل

❤6👍6🎉5🔥4😁3

774 views11:55

VIRSUN

🌍 معرفی MCP-Universe: بِنچمارک جدید Salesforce برای LLMها با سرورهای MCP

🔹 شرکت Salesforce یک بِنچمارک تازه منتشر کرده که توانایی مدل‌های زبانی بزرگ (LLM) را در کار با MCP (Model Context Protocol) می‌سنجد. MCP که اواخر ۲۰۲۴ توسط Anthropic معرفی شد، پروتکلی است برای اتصال LLM به سرویس‌ها و منابع داده‌ی بیرونی (مثل ابزارها و APIها).

---

🔎 ساختار بِنچمارک

♻️شامل ۱۱ MCP سرور با ۱۳۳ ابزار در ۶ حوزه مختلف
♻️در مجموع ۲۳۱ تسک واقعی طراحی شد، که هرکدام نیازمند یک یا چند تعامل MCP هستند

📌 نمونه حوزه‌ها و زیرتسک‌ها:

🗺 ناوبری روی نقشه: مسیریابی، ایستگاه‌های بهینه، جستجوی مکان و جستجو بر اساس ID

💻 مدیریت ریپازیتوری کد: تنظیم پروژه، ترکینگ مشکلات، اتوماسیون و ادغام کد

💰 تحلیل مالی: پورتفولیو، گزارش‌دهی، استراتژی معاملاتی، دارایی‌های نهادی، تحلیل سود سهام

🎨 طراحی سه‌بعدی (Blender): ساخت آبجکت، متریال، نورپردازی، رندر و سازمان‌دهی صحنه

🌐 اتوماسیون مرورگر: رزرو بلیط، تحلیل ورزشی، ریسرچ آکادمیک، پلتفرم آنالیز و ناوبری نقشه

🔎 وب‌سرچ: شناسایی افراد، استخراج موجودیت‌ها، متریک مَچینگ، استدلال پیچیده، فکت چک

---

⚙️ روش ارزیابی

♻️بررسی صحت فرمت پاسخ
♻️مقایسه ساده با جواب درست
♻️ارزیابی داینامیک (برای پرسش‌هایی مثل «امروز هوا چطوره» که پاسخ ثابت ندارند)

❗️ بخش بزرگی از تسک‌ها بیش از ۵ تماس با MCP نیاز دارند، یعنی مدل باید توانایی کار با کانتکست‌های طولانی و زنجیره تعاملات پیچیده را داشته باشد. همچنین تسک‌های بیش‌ازحد ساده یا مستقل از MCP فیلتر شدند.

---

✅ اهمیت این بِنچمارک در اینه که داره اولین بار مهارت واقعی LLMها در تعامل با ابزارهای بیرونی و حل مسائل دنیای واقعی رو می‌سنجه، نه فقط پرسش و پاسخ متنی.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #AI_Benchmark #صنعت

🔥13❤12👍12🎉8😁6

253 views04:47

About

Blog

Apps

Platform