🧠 نتایج جالب تست IQ برای مدلهای هوش مصنوعی
طبق دادههای TrackingAI.org، در تست آفلاین (که مدلها قبلاً آن را ندیده بودند)، مدل GPT-5 Pro توانسته امتیاز IQ = 123 را به دست آورد — بالاترین نمره بین تمام مدلهای موجود در این مقایسه.
📊 این تست شامل ۱۸ آزمون کلامی و ۱۲ آزمون بینایی است و میانگین امتیاز از آخرین ۷ آزمون برای هر مدل محاسبه شده است.
✨ نکته مهم اینجاست که تست آفلاین به معنی عدم وجود دادهها در آموزش مدل است، بنابراین نتایج بازتابی واقعی از توانایی استدلال مدلها محسوب میشود.
🔗 جزئیات بیشتر و نمودار کامل در TrackingAI.org
#هوش_مصنوعی 🤖 #GPT5 #تست_IQ #AI_Benchmark #ارزیابی_مدل
طبق دادههای TrackingAI.org، در تست آفلاین (که مدلها قبلاً آن را ندیده بودند)، مدل GPT-5 Pro توانسته امتیاز IQ = 123 را به دست آورد — بالاترین نمره بین تمام مدلهای موجود در این مقایسه.
📊 این تست شامل ۱۸ آزمون کلامی و ۱۲ آزمون بینایی است و میانگین امتیاز از آخرین ۷ آزمون برای هر مدل محاسبه شده است.
✨ نکته مهم اینجاست که تست آفلاین به معنی عدم وجود دادهها در آموزش مدل است، بنابراین نتایج بازتابی واقعی از توانایی استدلال مدلها محسوب میشود.
🔗 جزئیات بیشتر و نمودار کامل در TrackingAI.org
#هوش_مصنوعی 🤖 #GPT5 #تست_IQ #AI_Benchmark #ارزیابی_مدل
❤6👍6🎉5🔥4😁3
🌍 معرفی MCP-Universe: بِنچمارک جدید Salesforce برای LLMها با سرورهای MCP
🔹 شرکت Salesforce یک بِنچمارک تازه منتشر کرده که توانایی مدلهای زبانی بزرگ (LLM) را در کار با MCP (Model Context Protocol) میسنجد. MCP که اواخر ۲۰۲۴ توسط Anthropic معرفی شد، پروتکلی است برای اتصال LLM به سرویسها و منابع دادهی بیرونی (مثل ابزارها و APIها).
---
🔎 ساختار بِنچمارک
♻️شامل ۱۱ MCP سرور با ۱۳۳ ابزار در ۶ حوزه مختلف
♻️در مجموع ۲۳۱ تسک واقعی طراحی شد، که هرکدام نیازمند یک یا چند تعامل MCP هستند
📌 نمونه حوزهها و زیرتسکها:
🗺 ناوبری روی نقشه: مسیریابی، ایستگاههای بهینه، جستجوی مکان و جستجو بر اساس ID
💻 مدیریت ریپازیتوری کد: تنظیم پروژه، ترکینگ مشکلات، اتوماسیون و ادغام کد
💰 تحلیل مالی: پورتفولیو، گزارشدهی، استراتژی معاملاتی، داراییهای نهادی، تحلیل سود سهام
🎨 طراحی سهبعدی (Blender): ساخت آبجکت، متریال، نورپردازی، رندر و سازماندهی صحنه
🌐 اتوماسیون مرورگر: رزرو بلیط، تحلیل ورزشی، ریسرچ آکادمیک، پلتفرم آنالیز و ناوبری نقشه
🔎 وبسرچ: شناسایی افراد، استخراج موجودیتها، متریک مَچینگ، استدلال پیچیده، فکت چک
---
⚙️ روش ارزیابی
♻️بررسی صحت فرمت پاسخ
♻️مقایسه ساده با جواب درست
♻️ارزیابی داینامیک (برای پرسشهایی مثل «امروز هوا چطوره» که پاسخ ثابت ندارند)
❗️ بخش بزرگی از تسکها بیش از ۵ تماس با MCP نیاز دارند، یعنی مدل باید توانایی کار با کانتکستهای طولانی و زنجیره تعاملات پیچیده را داشته باشد. همچنین تسکهای بیشازحد ساده یا مستقل از MCP فیلتر شدند.
---
✅ اهمیت این بِنچمارک در اینه که داره اولین بار مهارت واقعی LLMها در تعامل با ابزارهای بیرونی و حل مسائل دنیای واقعی رو میسنجه، نه فقط پرسش و پاسخ متنی.
@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #AI_Benchmark #صنعت
🔹 شرکت Salesforce یک بِنچمارک تازه منتشر کرده که توانایی مدلهای زبانی بزرگ (LLM) را در کار با MCP (Model Context Protocol) میسنجد. MCP که اواخر ۲۰۲۴ توسط Anthropic معرفی شد، پروتکلی است برای اتصال LLM به سرویسها و منابع دادهی بیرونی (مثل ابزارها و APIها).
---
🔎 ساختار بِنچمارک
♻️شامل ۱۱ MCP سرور با ۱۳۳ ابزار در ۶ حوزه مختلف
♻️در مجموع ۲۳۱ تسک واقعی طراحی شد، که هرکدام نیازمند یک یا چند تعامل MCP هستند
📌 نمونه حوزهها و زیرتسکها:
🗺 ناوبری روی نقشه: مسیریابی، ایستگاههای بهینه، جستجوی مکان و جستجو بر اساس ID
💻 مدیریت ریپازیتوری کد: تنظیم پروژه، ترکینگ مشکلات، اتوماسیون و ادغام کد
💰 تحلیل مالی: پورتفولیو، گزارشدهی، استراتژی معاملاتی، داراییهای نهادی، تحلیل سود سهام
🎨 طراحی سهبعدی (Blender): ساخت آبجکت، متریال، نورپردازی، رندر و سازماندهی صحنه
🌐 اتوماسیون مرورگر: رزرو بلیط، تحلیل ورزشی، ریسرچ آکادمیک، پلتفرم آنالیز و ناوبری نقشه
🔎 وبسرچ: شناسایی افراد، استخراج موجودیتها، متریک مَچینگ، استدلال پیچیده، فکت چک
---
⚙️ روش ارزیابی
♻️بررسی صحت فرمت پاسخ
♻️مقایسه ساده با جواب درست
♻️ارزیابی داینامیک (برای پرسشهایی مثل «امروز هوا چطوره» که پاسخ ثابت ندارند)
❗️ بخش بزرگی از تسکها بیش از ۵ تماس با MCP نیاز دارند، یعنی مدل باید توانایی کار با کانتکستهای طولانی و زنجیره تعاملات پیچیده را داشته باشد. همچنین تسکهای بیشازحد ساده یا مستقل از MCP فیلتر شدند.
---
✅ اهمیت این بِنچمارک در اینه که داره اولین بار مهارت واقعی LLMها در تعامل با ابزارهای بیرونی و حل مسائل دنیای واقعی رو میسنجه، نه فقط پرسش و پاسخ متنی.
@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #AI_Benchmark #صنعت
🔥13❤12👍12🎉8😁6