🤖✨ یک بنچمارک جدید به نام Prophet Arena معرفی شده که توانایی هوش مصنوعی در *پیشبینی آینده* رو میسنجه!
🔹 ایده واقعاً جالبه:
* از نظر علمی، این روش باعث میشه مدلها در زمینه تفکر احتمالاتی، استراتژیک، انتقادی و کشف روابط علت و معلولی محک بخورن.
* از نظر بنچمارکینگ هم خیلی خاصه: چون همیشه رویدادهای جدیدی در دنیا رخ میده، این تست هیچوقت اشباع نمیشه. از طرفی هم امکان لیک داده وجود نداره، چون پیشبینیها فقط درباره آینده انجام میشن.
⚙️ روند کار:
مدلها خودشون خبرها و دادههای اینترنت رو جمعآوری و تحلیل میکنن و بعد پیشبینی میسازن. وقتی واقعه در دنیای واقعی رخ بده، دقت بررسی میشه.
دو معیار اصلی:
* 📊 میانگین سود واقعی از شرطبندی روی رویداد
* 📉 دقت آماری بایر
🏆 جدول فعلی:
🥉 Gemini 2.5 Pro
🥈 o3
🥇 GPT-5
(و جایزه ویژه هم رفته برای سیمپسونها 😅)
💡 جالبه بدونید در شاخص سوددهی، فعلاً o3-mini اول شده. همچنین خیلی از مدلها سبک رفتاری متفاوتی دارن؛ بعضیها همیشه محافظهکارانه تصمیم میگیرن و بعضیها ریسکپذیر هستن.
👉 جدول کامل و شرطبندیهای فعلی مدلها (از جمله روی مسابقات ورزشی) اینجاست: [prophetarena.co]
#هوش_مصنوعی #بنچمارک #پیشبینی #ProphetArena
@rss_ai_ir
🔹 ایده واقعاً جالبه:
* از نظر علمی، این روش باعث میشه مدلها در زمینه تفکر احتمالاتی، استراتژیک، انتقادی و کشف روابط علت و معلولی محک بخورن.
* از نظر بنچمارکینگ هم خیلی خاصه: چون همیشه رویدادهای جدیدی در دنیا رخ میده، این تست هیچوقت اشباع نمیشه. از طرفی هم امکان لیک داده وجود نداره، چون پیشبینیها فقط درباره آینده انجام میشن.
⚙️ روند کار:
مدلها خودشون خبرها و دادههای اینترنت رو جمعآوری و تحلیل میکنن و بعد پیشبینی میسازن. وقتی واقعه در دنیای واقعی رخ بده، دقت بررسی میشه.
دو معیار اصلی:
* 📊 میانگین سود واقعی از شرطبندی روی رویداد
* 📉 دقت آماری بایر
🏆 جدول فعلی:
🥉 Gemini 2.5 Pro
🥈 o3
🥇 GPT-5
(و جایزه ویژه هم رفته برای سیمپسونها 😅)
💡 جالبه بدونید در شاخص سوددهی، فعلاً o3-mini اول شده. همچنین خیلی از مدلها سبک رفتاری متفاوتی دارن؛ بعضیها همیشه محافظهکارانه تصمیم میگیرن و بعضیها ریسکپذیر هستن.
👉 جدول کامل و شرطبندیهای فعلی مدلها (از جمله روی مسابقات ورزشی) اینجاست: [prophetarena.co]
#هوش_مصنوعی #بنچمارک #پیشبینی #ProphetArena
@rss_ai_ir