🧠 هوش مصنوعی GPT-5 به سطحی از عملکرد رسیده که در آزمونهای تخصصی، حتی برخی انسانها را پشت سر گذاشته است
@rss_ai_ir
📊 سه نمودار منتشر شده از OpenAI نشان میدهد که نسخه جدید GPT-5 Pro (با ابزارهایی مثل پایتون و سرچ) در سه مجموعه سؤال سنگین، عملکردی فوقالعاده داشته:
📌 نمودار اول: آزمون "آخرین امتحان بشریت" با سؤالات سطح کارشناسی ارشد و دکترا در حوزههای مختلف
در این تست، GPT-5 Pro با دسترسی به پایتون و وب، با دقت ۴۲٪ در سؤالات سخت چندرشتهای عملکرد داشت، در حالیکه نسخههای قبلی مانند GPT-4o تنها ۵٪ موفق بودند.
📌 نمودار دوم: آزمون ریاضی AIME 2025
در این رقابت، GPT-5 Pro (پایتون) با دقت ۱۰۰٪ کل سؤالات را بهدرستی پاسخ داد؛ حتی بدون ابزار هم به ۹۶٪ دقت رسید. GPT-4o در مقایسه، تنها توانست ۴۲٪ را حل کند.
📌 نمودار سوم: آزمون GPQA برای سؤالات علوم در سطح دکترا
مدل جدید GPT-5 Pro با دقت ۸۹٪ به سؤالات پاسخ داد. حتی بدون ابزار هم عملکرد آن در سطح ۸۸٪ باقی ماند؛ پیشرفت قابل توجهی نسبت به GPT-4o با دقت ۷۰٪.
🚀 آنچه این پیشرفت را چشمگیرتر میکند، تفاوت میان حالت «با تفکر» و «بدون تفکر» در پاسخ دادن است. GPT-5 با روشهای جدید تفکر زنجیرهای (Chain-of-Thought) توانسته مسیر حل مسئله را بازسازی کرده و به پاسخ صحیح برسد، نه صرفاً حفظ کردن الگوها.
🧩 با این روند، ابزارهای AI در آستانه ورود به سطحی از درک مفهومی هستند که در بسیاری از حوزهها میتوانند در کنار متخصصان واقعی فعالیت کنند.
#هوش_مصنوعی #GPT5 #GPT5Pro #OpenAI #یادگیری_ماشین #AIinEducation #ChainOfThought #AIME2025 #GPQA #آزمون_بشریت #AItools #AIthinking #تحلیل_پیشرفته #هوش_مصنوعی_پیشرفته @rss_ai_ir
@rss_ai_ir
📊 سه نمودار منتشر شده از OpenAI نشان میدهد که نسخه جدید GPT-5 Pro (با ابزارهایی مثل پایتون و سرچ) در سه مجموعه سؤال سنگین، عملکردی فوقالعاده داشته:
📌 نمودار اول: آزمون "آخرین امتحان بشریت" با سؤالات سطح کارشناسی ارشد و دکترا در حوزههای مختلف
در این تست، GPT-5 Pro با دسترسی به پایتون و وب، با دقت ۴۲٪ در سؤالات سخت چندرشتهای عملکرد داشت، در حالیکه نسخههای قبلی مانند GPT-4o تنها ۵٪ موفق بودند.
📌 نمودار دوم: آزمون ریاضی AIME 2025
در این رقابت، GPT-5 Pro (پایتون) با دقت ۱۰۰٪ کل سؤالات را بهدرستی پاسخ داد؛ حتی بدون ابزار هم به ۹۶٪ دقت رسید. GPT-4o در مقایسه، تنها توانست ۴۲٪ را حل کند.
📌 نمودار سوم: آزمون GPQA برای سؤالات علوم در سطح دکترا
مدل جدید GPT-5 Pro با دقت ۸۹٪ به سؤالات پاسخ داد. حتی بدون ابزار هم عملکرد آن در سطح ۸۸٪ باقی ماند؛ پیشرفت قابل توجهی نسبت به GPT-4o با دقت ۷۰٪.
🚀 آنچه این پیشرفت را چشمگیرتر میکند، تفاوت میان حالت «با تفکر» و «بدون تفکر» در پاسخ دادن است. GPT-5 با روشهای جدید تفکر زنجیرهای (Chain-of-Thought) توانسته مسیر حل مسئله را بازسازی کرده و به پاسخ صحیح برسد، نه صرفاً حفظ کردن الگوها.
🧩 با این روند، ابزارهای AI در آستانه ورود به سطحی از درک مفهومی هستند که در بسیاری از حوزهها میتوانند در کنار متخصصان واقعی فعالیت کنند.
#هوش_مصنوعی #GPT5 #GPT5Pro #OpenAI #یادگیری_ماشین #AIinEducation #ChainOfThought #AIME2025 #GPQA #آزمون_بشریت #AItools #AIthinking #تحلیل_پیشرفته #هوش_مصنوعی_پیشرفته @rss_ai_ir
❤2👍1🔥1
پژوهش جدید با عنوان ASAP روشی دومرحلهای برای فشردهسازی زنجیرهاستدلالها (CoT) در مدلهای استدلال کدنویسی معرفی کرده است 🧠💻.
هدف این روش، حذف مراحل غیرضروری از CoTهای طولانی و حفظ انسجام منطقی آنهاست تا هزینه محاسباتی و زمان استنتاج مدلهای استدلال بزرگ (LRM) کاهش یابد.
---
✨ روش کار
1️⃣ مرحله هرسکردن اولیه — حذف شاخههای بیربط با استفاده از یک مکانیسم راهنمای لنگر (Anchor-Guided Pruning).
2️⃣ مرحله پالایش دقیق — بهرهگیری از شاخص نوآورانه "شگفتی اولین توکن" (*First-Token Surprisal*) برای شناسایی و حذف گامهایی با اهمیت منطقی پایین بهصورت تکراری.
---
📊 نتایج
❇️ دقت Pass\@1: ۳۶.۱۹٪ روی بنچمارک LiveCodeBench v4\_v5
❇️کاهش طول تولید توکنها: ۲۳.۵٪
❇️ کاهش زمان استنتاج: ۴۳.۵٪ نسبت به بهترین خطپایه موجود
---
🎯 مزایا برای توسعهدهندگان
❇️ آموزش مدلها روی CoTهای کوتاهتر و غنیتر از نظر منطقی
❇️کاهش هزینه و زمان اجرای مدل
❇️ افزایش دقت در تولید کد با الگوگیری از الگوهای استدلال مؤثر
@rss_ai_ir 🚀
📎 مطالعه بیشتر: [arXiv](https://arxiv.org/abs/2508.05988) | [HuggingFace](https://huggingface.co/papers/2508.05988)
\#هوش_مصنوعی 🤖 #یادگیری_ماشین 📚 #تولید_کد 💻 #مدل_زبان_بزرگ 🧠 #بهینهسازی ⚡️ #ChainOfThought
هدف این روش، حذف مراحل غیرضروری از CoTهای طولانی و حفظ انسجام منطقی آنهاست تا هزینه محاسباتی و زمان استنتاج مدلهای استدلال بزرگ (LRM) کاهش یابد.
---
✨ روش کار
1️⃣ مرحله هرسکردن اولیه — حذف شاخههای بیربط با استفاده از یک مکانیسم راهنمای لنگر (Anchor-Guided Pruning).
2️⃣ مرحله پالایش دقیق — بهرهگیری از شاخص نوآورانه "شگفتی اولین توکن" (*First-Token Surprisal*) برای شناسایی و حذف گامهایی با اهمیت منطقی پایین بهصورت تکراری.
---
📊 نتایج
❇️ دقت Pass\@1: ۳۶.۱۹٪ روی بنچمارک LiveCodeBench v4\_v5
❇️کاهش طول تولید توکنها: ۲۳.۵٪
❇️ کاهش زمان استنتاج: ۴۳.۵٪ نسبت به بهترین خطپایه موجود
---
🎯 مزایا برای توسعهدهندگان
❇️ آموزش مدلها روی CoTهای کوتاهتر و غنیتر از نظر منطقی
❇️کاهش هزینه و زمان اجرای مدل
❇️ افزایش دقت در تولید کد با الگوگیری از الگوهای استدلال مؤثر
@rss_ai_ir 🚀
📎 مطالعه بیشتر: [arXiv](https://arxiv.org/abs/2508.05988) | [HuggingFace](https://huggingface.co/papers/2508.05988)
\#هوش_مصنوعی 🤖 #یادگیری_ماشین 📚 #تولید_کد 💻 #مدل_زبان_بزرگ 🧠 #بهینهسازی ⚡️ #ChainOfThought
❤16😁12🔥11🎉9👍8