VIRSUN

📢 چالش‌ها و واکنش سام آلتمن به عرضه GPT-5
@rss_ai_ir

♨️سام آلتمن، مدیرعامل OpenAI، در گفت‌وگویی آنلاین به مشکلات اولیه عرضه GPT-5 و اقدامات اصلاحی اشاره کرد:

🔹 مشکل در سیستم مسیریابی (Router)
در روز اول عرضه، به دلیل اشکال در «روتر در لحظه»، GPT-5 گاهی پاسخ‌های ضعیف‌تر می‌داد. قرار است این مشکل رفع و شفافیت در نمایش مدل فعال بیشتر شود.

🔹 بازگشت GPT-4o برای کاربران Plus
به دلیل درخواست گسترده، مدل GPT-4o دوباره برای مشترکان Plus فعال خواهد شد تا کاربران بتوانند بین مدل‌ها انتخاب کنند.

🔹 ماجرای “Chart Crime” در ارائه
در استریم معرفی GPT-5، نمودارها اشتباه نمایش داده شدند و اختلاف درصدها به‌درستی نشان داده نشد. آلتمن این خطا را «بزرگ‌ترین اشتباه گرافیکی» نامید و نسخه اصلاح‌شده را منتشر کرد.

📌 جمع‌بندی:
هرچند GPT-5 از نظر فنی پیشرفت بزرگی است، اما شروع کار با چالش‌هایی در عملکرد، تجربه کاربری و حتی ارائه همراه شد. OpenAI اکنون در حال اصلاح این موارد و جلب اعتماد کاربران است.

#هوش_مصنوعی #GPT5 #OpenAI
@rss_ai_ir

👍14❤12😁12🥰9🔥7👏6🎉5🙏1

3.72K viewsedited 16:24

VIRSUN

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

🔍 شرکت OpenAI قابلیت جدیدی اضافه کرده که نشان می‌دهد پاسخ هر پیام توسط کدام مدل تولید شده است.

📌 مشکل اصلی این بود که برای هر درخواست، یک «روتر» تصمیم می‌گیرد کدام مدل پاسخ دهد. حتی در یک گفت‌وگو، ممکن است برخی پیام‌ها (به‌خصوص برای کاربران رایگان یا کاربران پولی بعد از رسیدن به سقف محدودیت) توسط gpt-5-mini یا حتی gpt-4o-mini پاسخ داده شوند.

✅ این قابلیت شفافیت بیشتری ایجاد می‌کند و می‌توان بهتر فهمید که سیستم چه زمانی از کدام مدل استفاده می‌کند.

📱 روی نسخه موبایل هم فعال است؛ کافی است روی پاسخ مدل کمی نگه دارید تا نام مدل نمایش داده شود.

#هوش_مصنوعی #GPT5 #OpenAI
@rss_ai_ir

🎉8❤7🔥6👍4🥰4😁4👏1

856 viewsedited 03:12

VIRSUN

📊🤖 بهبود دقت GPT-5 با پرامپت کاستوم جدید

تست‌ها روی مدل gpt-5-nano با تلاش medium و بنچمارک MMLU-PRO نشان دادند که استفاده از نسخه سوم پرامپت کاستوم باعث افزایش دقت از 68.73٪ به 70.20٪ شده است (+1.47٪).

📌 ویژگی‌های نسخه جدید

♻️استفاده از تکنیک «ساخت روبریک» در حین فکر کردن مدل
♻️ارزیابی داخلی پاسخ‌ها (۰ تا ۱۰۰) و بازنویسی در صورت کیفیت پایین
♻️حذف ترفندهای قدیمی بی‌اثر و بهبود فرمت خروجی
♻️بدون تحمیل جدول یا پیشنهاد اضافی مگر درخواستی باشد

📈 در نمودار دوم می‌بینید که تقریباً در تمام حوزه‌ها (مهندسی، علوم کامپیوتر، شیمی، بیزینس، زیست، فیزیک و …) عملکرد کمی بهتر بوده است.

📥 پرامپت و توضیحات کامل:
github.com/DenisSergeevitch/chatgpt-custom-instructions

@rss_ai_ir 🚀 | #هوش_مصنوعی #پرامپت #GPT5 #LLM #پردازش_زبان

🔥18❤12😁11👍9🥰7🎉6👏5

2.97K views18:47

VIRSUN

🚀 افزایش چشمگیر سقف استفاده از GPT-5 Thinking برای کاربران Plus

سام آلتمن اعلام کرد که سهمیه هفتگی کاربران Plus برای مدل GPT-5-Thinking به ۳۰۰۰ درخواست رسیده است؛ رقمی که چندین برابر مجموع سقف مدل‌های استدلالی قبلی مثل o3 و o4-mini است.

📊 آمار جالب از استفاده مدل‌های استدلالی

کاربران رایگان: سهم پاسخ‌های مدل‌های استدلالی از کمتر از ۱٪ به ۷٪ افزایش یافته است.

کاربران Plus: این سهم از ۷٪ به ۲۴٪ رسیده است.

نتیجه: تقاضا برای GPT-5-Thinking حدود ۳.۵ برابر رشد کرده و کیفیت تجربه کاربران تازه‌کار به‌طور محسوسی بهتر شده است.

⚙️ روش فعال‌سازی Thinking به‌صورت خودکار

در پایان پرسش بنویسید: «Think better»، «think for long» یا «لطفاً عمیق فکر کن».

یا از تنظیمات بالای چت، حالت Thinking را به‌صورت پیش‌فرض فعال کنید.

💡 جمع‌بندی: با سقف جدید ۳۰۰۰ درخواست هفتگی، مدل GPT-5 در حالت Thinking می‌تواند به شکل روزمره در طیف وسیعی از سناریوها، پاسخ‌هایی عمیق‌تر و دقیق‌تر ارائه دهد.

#هوش_مصنوعی #GPT5 #Thinking #ChatGPT

@rss_ai_ir

👏16👍11🔥11🥰10😁10🎉9❤7🙏1

3.04K views18:56

VIRSUN

📉🧠 در یک تست آفلاین مقایسه‌ای، میزان IQ مدل‌های مختلف هوش مصنوعی اندازه‌گیری شد.

🔹 مدل Claude-4 Opus با امتیاز 118 بالاترین رتبه را به دست آورد.
🔹 مدل‌های o3 Pro و Gemini 2.5 Pro نیز با اختلاف اندک در جایگاه‌های بعدی قرار گرفتند.
🔹 نکته جالب این است که GPT-5 Thinking با امتیاز 57 پایین‌ترین رکورد را ثبت کرده و حتی در تست آفلاین هم فقط به 70 رسیده است.

📊 این نتایج نشان می‌دهد که عملکرد مدل‌های هوش مصنوعی می‌تواند بسته به نوع و بهینه‌سازی آن‌ها بسیار متفاوت باشد، حتی اگر از یک شرکت باشند.

#هوش_مصنوعی #تست_IQ #GPT5 #Claude4

@rss_ai_ir

👏9😁6🔥5🥰4❤3👍3🎉3🤯1

2.92K views19:05

VIRSUN

📊 آمار جالب از سمت Altman

قبل از معرفی GPT-5، تنها حدود ۷٪ از کاربران نسخه Plus سراغ مدل‌های Reasoning می‌رفتند. حالا این عدد به ۲۴٪ رسیده است، چون سیستم جدید به‌صورت خودکار درخواست‌ها را به مدل‌های استدلالی هدایت می‌کند.

در بخش کاربران رایگان، اوضاع حتی جالب‌تر است: پیش‌تر کمتر از ۱٪ آن‌ها Reasoning Models را امتحان کرده بودند، ولی حالا این رقم به ۷٪ رسیده است.

❓ پرسش اینجاست که آیا همه واقعاً این‌قدر به gpt-4o علاقه‌مند بودند، یا مشکل اصلی این بوده که بلد نبودند از منوی کشویی انتخاب مدل استفاده کنند؟ 😄

#هوش_مصنوعی #GPT5 #Reasoning #OpenAI
@rss_ai_ir 🚀

❤18🥰12👏12🎉6👍5🔥5😁4

798 views09:35

VIRSUN

📚 راهنمای جامع پرامپت‌نویسی GPT-5 منتشر شد 🤖✨

شرکت OpenAI یک منبع کامل و کاربردی برای کار با GPT-5 ارائه کرده که شامل:

♻️پرامپت‌های آماده برای بهبود توان استدلال مدل 🧠
♻️راهنمای ساخت اپلیکیشن بدون کدنویسی 💡
♻️یک متا-پرامپت ویژه برای افزایش کیفیت کلی خروجی‌ها 📈

این مجموعه، ابزاری قدرتمند برای توسعه‌دهندگان و علاقه‌مندان هوش مصنوعی است تا از GPT-5 بیشترین بهره را ببرند.
📎 لینک منبع: cookbook.openai.com
@rss_ai_ir 🚀 | #هوش_مصنوعی #GPT5 #پرامپت #OpenAI

👍2🔥2👏1

2.97K viewsedited 16:14

VIRSUN

📢 راهنمای بهینه‌ استفاده از مدل‌های GPT-5 در ChatGPT

نتایج تست‌ها و بررسی‌ها نشان می‌دهد که در اکانت‌های Plus، اگر به محدودیت‌ها نرسیده باشید، سیستم درخواست شما را یا به GPT-5 اصلی یا به GPT-5 Thinking ارسال می‌کند (بدون استفاده از o3 یا GPT-4.5). برای کاربران رایگان، وضعیت و محدودیت‌ها هنوز شفاف نیست.

⚠️ نکته مهم این است که وقتی روتر به‌طور خودکار درخواست شما را به GPT-5 Thinking بفرستد، سطح reasoning_effort روی Low تنظیم می‌شود و کیفیت خروجی معمولاً پایین‌تر از حالتی است که خودتان دستی GPT-5 Thinking را انتخاب کنید (که در این حالت روی Medium قرار می‌گیرد). طبق بنچمارک‌ها، تفاوت کیفیت بین Low و Medium قابل توجه است.

📌 توصیه عملی
اگر دقت و کیفیت برایتان مهم است، حتماً GPT-5 Thinking را به صورت دستی انتخاب کنید و از گزینه "Think longer" هم بهره ببرید.

💡 سایر نکات کلیدی:

♻️کاربران رایگان به GPT-5 Thinking دسترسی ندارند (یا در حد ۱-۲ درخواست محدود در هفته)، و پاسخ‌ها از نسخه GPT-5 Thinking Mini می‌آید که هم داده‌های کمتر و هم توان reasoning پایین‌تری دارد.

♻️اکانت‌های Plus اکنون ۳۰۰۰ درخواست GPT-5 Thinking در هفته دارند؛ بنابراین بهتر است این حالت را به عنوان حالت پیش‌فرض استفاده کنید.

♻️تیم OpenAI روی افزودن سوئیچ انتخاب reasoning_effort کار می‌کند تا کاربر بتواند به‌راحتی بین Low و Medium جابه‌جا شود.

@rss_ai_ir | #هوش_مصنوعی #GPT5 #راهنما

❤10🔥8🎉7😁3👍2

3.01K viewsedited 18:33

VIRSUN

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

اپن‌ای‌آی ابزار جدیدی معرفی کرده است که به‌عنوان تولیدکننده ابرپرامپت برای شبکه‌های عصبی این شرکت عمل می‌کند 🧠⚡

---

✨ ویژگی‌ها

✳️مناسب برای تمام محصولات اپن‌ای‌آی و حتی مدل جدید GPT-5
✳️کافی است فقط توضیح دهید چه چیزی باید تولید شود
✳️تولید پرامپت بی‌نقص در کمتر از یک ثانیه
✳️تنها کاری که باقی می‌ماند، کپی و قرار دادن آن در هوش مصنوعی است
✳️پشتیبانی از زبان‌های متعدد،

لینک
---

این ابزار می‌تواند خطاها و هالوسینیشن‌ها را به حداقل برساند و خروجی مدل را دقیق‌تر و پایدارتر کند.

#هوش_مصنوعی 🤖 #OpenAI 🏢 #پرامپت ⚡ #GPT5 #مولد_پرامپت
@rss_ai_ir

❤8👍6🎉5😁4🔥3🙏1

801 views01:12

VIRSUN

🧠 نتایج جالب تست IQ برای مدل‌های هوش مصنوعی

طبق داده‌های TrackingAI.org، در تست آفلاین (که مدل‌ها قبلاً آن را ندیده بودند)، مدل GPT-5 Pro توانسته امتیاز IQ = 123 را به دست آورد — بالاترین نمره بین تمام مدل‌های موجود در این مقایسه.

📊 این تست شامل ۱۸ آزمون کلامی و ۱۲ آزمون بینایی است و میانگین امتیاز از آخرین ۷ آزمون برای هر مدل محاسبه شده است.

✨ نکته مهم اینجاست که تست آفلاین به معنی عدم وجود داده‌ها در آموزش مدل است، بنابراین نتایج بازتابی واقعی از توانایی استدلال مدل‌ها محسوب می‌شود.

🔗 جزئیات بیشتر و نمودار کامل در TrackingAI.org

#هوش_مصنوعی 🤖 #GPT5 #تست_IQ #AI_Benchmark #ارزیابی_مدل

❤6👍6🎉5🔥4😁3

774 views11:55

VIRSUN

🔥 شفاف‌سازی بزرگ: DeepSeek-V2 در برابر غول آینده، DeepSeek-R2! 🔥

شاید شما هم شنیده باشید و بپرسید: "مگر الان DeepSeek-2 در دسترس نیست؟ 🤔 پس این همه هیجان برای چیست؟"

بله درسته، اما مدلی که الان موجوده با هیولایی که تا چند هفته دیگه از راه میرسه، دو داستان کاملاً متفاوته! بیاید یک بار برای همیشه این دو رو از هم جدا کنیم:

---

🏆 مدل فعلی: DeepSeek-V2 (قهرمان امروز)

این همون مدل قدرتمند و متن-بازی هست که چند ماه پیش عرضه شد و کلی سر و صدا کرد. با معماری بهینه MoE و ۲۳۶ میلیارد پارامتر، خودش رو به عنوان یک رقیب جدی برای بهترین‌های بازار ثابت کرد. این مدل، پایه و اساس موفقیت DeepSeek بود.

---

🚀 مدل آینده: DeepSeek-R2 (انقلاب فردا)

این همون غول مرحله آخریه که همه منتظرشیم و قراره اواخر ماه آگوست (اوایل شهریور) رونمایی بشه. این یک آپدیت ساده نیست، یک بازطراحی کامله!

✨ تفاوت‌های کلیدی R2:

🧠 معماری تکامل‌یافته: استفاده از Hybrid MoE با یک شبکه Gating فوق هوشمند که پردازش‌ها رو بهینه‌تر از همیشه می‌کنه.

📈 جهش پارامتری: صعود از ۲۳۶ میلیارد به عدد سرسام‌آور ۱.۲ تریلیون پارامتر! یعنی توانایی درک و تحلیلی در مقیاسی کاملاً جدید. 🤯

💰 برگ برنده اصلی: اینجاست که بازی عوض میشه! ادعای شگفت‌انگیز کاهش هزینه تا ۹۷٪ نسبت به مدل‌هایی مثل GPT-4o. اگر واقعی باشه، یک زلزله در دنیای AI خواهد بود!

🇨🇳 قدرت‌نمایی سخت‌افزاری: آموزش کامل بر روی تراشه‌های پیشرفته Ascend هواوی، که نشان از استقلال و پیشرفت چین در برابر انویدیا داره.

نتیجه‌گیری:
پس بله، DeepSeek-V2 عالیه، اما DeepSeek-R2 قراره قوانین بازی رو عوض کنه. جنگ آینده فقط سر "قوی‌ترین" بودن نیست، بلکه سر "بهینه‌ترین و ارزان‌ترین" بودنه.

شهریور ماه، شاهد یکی از سنگین‌ترین نبردهای تاریخ هوش مصنوعی خواهیم بود. آماده باشید! 💥

#هوش_مصنوعی #دیپ_سیک #تکنولوژی #DeepSeekR2 #GPT5 #رقابت_هوش_مصنوعی
@rss_ai_ir

❤15🎉9👍8😁7🔥3👏1

1.47K views09:48

VIRSUN

🔎 رتبه‌بندی جدید مدل‌های زبانی در LMArena

مدلی که هفته گذشته رتبه یک را کسب کرد، GPT-5 High بود؛ نسخه‌ای ویژه در API با بالاترین سطح استدلال، نه همان مدلی که در ChatGPT همه به آن دسترسی دارند.

📌 جزئیات رتبه‌ها:
۱️⃣ GPT-5 High — رتبه ۱
۵️⃣ GPT-5 Chat — رتبه ۵ (مدل پیش‌فرض در ChatGPT)
۱۶️⃣ GPT-5 Mini High — رتبه ۱۶
۴۴️⃣ GPT-5 Nano High — رتبه ۴۴

⚠️ علت پایین‌تر بودن GPT-5 Chat نسبت به GPT-4o:
مدل GPT-5 Chat کمتر حالت «گرم و تأییدکننده» دارد و بیشتر «عینی و بی‌طرف» طراحی شده است؛ همین تغییر باعث شده برای بسیاری از کاربران خشک‌تر به نظر برسد.

✅ نکات کلیدی:

نسخه GPT-5 High قدرتمندتر است اما فقط از طریق API در دسترس است.

کاربران ChatGPT در واقع نسخه ساده‌تر یعنی GPT-5 Chat را تجربه می‌کنند.

مدل Gemini 2.5 Pro به دلیل اجرای همیشگی زنجیره استدلال، امتیاز بالاتری کسب کرده است.

📍 جمع‌بندی: از نظر فنی GPT-5 بسیار قدرتمند است، اما آنچه کاربران عادی تجربه می‌کنند نسخه متفاوتی است؛ همین تفاوت دلیل اختلاف در رتبه‌بندی‌ها و برداشت کاربران است.

@rss_ai_ir 🤖 | #هوش_مصنوعی #GPT5 #مدل_زبان

❤2👍1🔥1👏1🎉1

3K views14:37

VIRSUN

📱 فراتر از رایگان؛ معرفی پلن ۵ دلاری ChatGPT Go

🔹 یک طرح جدید با قیمت پایین‌تر از نسخه‌های قبلی ChatGPT معرفی شده: ChatGPT Go که بی‌سروصدا راه‌اندازی شده و فعلاً فقط در هند و چند منطقه محدود فعاله.

💰 با پرداخت حدود ۵ دلار (۴۰۰ روپیه هند) در ماه، به GPT-5 دسترسی خواهید داشت؛ پیشرفته‌ترین مدل ChatGPT. این پلن اجازه میده:

♻️پیام‌های بیشتری ارسال کنید
♻️فایل‌ها رو بارگذاری کنید
♻️تصاویر باکیفیت‌تری بسازید

در واقع ChatGPT Go یک پلن میان‌رده بین نسخه‌ی رایگان و نسخه‌های گران‌تر Plus/Pro محسوب میشه؛ با هزینه‌ای مناسب، امکانات قابل‌توجهی در اختیار کاربر قرار میده.

#ChatGPT #هوش_مصنوعی #GPT5 #اشتراک
@rss_ai_ir

👍12🥰11🎉9🔥8😁7❤6👏5

2.03K viewsedited 13:42

VIRSUN

📊 نتایج تازه‌ی بنچمارک مدل‌ها؛ Grok-4، Opus 4.1 و Mistral Medium 3.1

به‌نظر میاد ایلان ماسک راه درستی رو انتخاب کرده 🚀
مدل Grok-4 هم پشتیبانی کامل از خروجی‌های ساختاریافته (Structured Outputs) داره و هم در بنچمارک جدید دقیقاً هم‌امتیاز با GPT-5 (medium reasoning) شده: ۷۹.۴٪ 🔝

🔹 نکات مهم:

امروز تعداد بیشتری از ارائه‌دهندگان مستقل خروجی ساختاریافته رو ساپورت می‌کنن:
✅ Fireworks
✅ Cerebras
✅ Groq

علاوه بر این‌ها، ارائه‌دهندگان بزرگ مثل OpenAI (+Azure)، Mistral و Google (به‌صورت محدود) هم پشتیبانی دارن.

⚠️ مدل‌های GPT-OSS به‌دلیل فرمت جدید Harmony فعلاً با Structured Outputs پایدار کار نمی‌کنن؛ نه روی ارائه‌دهندگان و نه در ollama. باید صبر کرد.

📉 وضعیت بقیه:

علاوه بر این Anthropic Claude همچنان در رتبه‌های پایین وظایف صنعتی مونده. شرکت هم درباره‌ی پشتیبانی از constrained decoding یا Structured Outputs سکوت کرده. حتی Opus 4.1 نسبت به Opus 4.0 کمی ضعیف‌تر شده (رتبه ۲۲).

همچنین Mistral Medium 3.1 هم بدون جهش خاص؛ کمی پایین‌تر از نسخه 3.0 با رتبه‌ی ۳۸.

📌 جمع‌بندی: آینده رقابت مدل‌ها در صنعت به شدت به توانایی در خروجی‌های ساختاریافته وابسته خواهد بود.

#هوش_مصنوعی #Grok #GPT5 #Claude #Mistral
@rss_ai_ir

👏11🔥10❤9🎉8😁5👍4🥰4

4.38K views15:00

VIRSUN

🔹 در نیمه‌ی نخست سال ۲۰۲۵ دو شرکت OpenAI و Anthropic رشد خیره‌کننده‌ای را تجربه کردند و به‌نوعی وارد مرحله‌ی «ابررشد» شدند.

💰 درآمد سالانه (ARR):

* اوپن‌ای‌آی از ۶ میلیارد دلار به ۱۲ میلیارد دلار در عرض ۶ ماه رسید.
* آنتروپیک از ۱ میلیارد دلار به ۵ میلیارد دلار در ۷ ماه رشد کرد.

📊 مقایسه درآمدها:

* اوپن‌ای‌آی در بخش اشتراک‌ها (مصرف‌کننده و سازمانی) پیشتاز است.
* آنتروپیک در بخش API کمی جلوتر است: ۳.۱ میلیارد دلار در برابر ۲.۹ میلیارد دلار.
* نیمی از درآمد API آنتروپیک تنها از Cursor و GitHub Copilot به دست می‌آید.

👩‍💻 شاخص‌های استفاده:

* چت‌جی‌پی‌تی روزانه بیش از ۳ میلیارد پیام پردازش می‌کند (رشد ۴ برابری نسبت به سال گذشته).
* کلود‌کُد به ۴۰۰ میلیون دلار ARR رسیده و تنها در چند هفته دو برابر شده است.
* بسیاری از دستیارها به طور پیش‌فرض از Claude 4 Sonnet استفاده می‌کنند.

⚖️ با این حال اگر جی‌پی‌تی-۵ دوباره برتری مطلق پیدا کند، احتمال دارد Cursor و Copilot به سمت اوپن‌ای‌آی متمایل شوند و این می‌تواند موازنه‌ی بازار را یک‌شبه تغییر دهد.

🌐 @rss_ai_ir

#هوش_مصنوعی #OpenAI #Anthropic #ChatGPT #Claude #Cursor #Copilot #GPT5 #بازار

🎉31🔥24🥰22😁21❤19👏19👍18

923 views15:38

VIRSUN

📊 نتایج بنچمارک MCP-Universe

تست‌های تازه‌ی MCP-Universe یک برنده‌ی مشخص داشتند: GPT-5 با اختلاف زیاد در صدر قرار گرفت:

🏆 نرخ موفقیت (SR) → ۴۳.۷٪

🏆 امتیاز ارزیابان (AE) → ۶۰.۲٪

📈 در تمام حوزه‌ها پیشتاز است، به جز Browser Automation که کمی بهتر از آن Grok-4 عمل کرده.

---

🔎 جزئیات بر اساس حوزه‌ها:

✅تحلیل مالی (Financial Analysis) → رکورد GPT-5 با ۶۷.۵٪؛ فاصله‌ی چشمگیر از بقیه.

✅طراحی سه‌بعدی (3D Designing) → باز هم صدرنشین با ۵۲.۶٪.

✅مدیریت مخزن کد (Repository Management) → GPT-5 با ۳۰.۳٪ به‌وضوح بالاتر از رقباست.

✅اتوماسیون مرورگر (Browser Automation) → این‌جا شگفتی رقم خورد: Grok-4 با ۴۱.۰٪ جلوتر از GPT-5 (۳۵.۹٪).

---

🟢 در میان مدل‌های متن‌باز (Open-Source):

♻️مدل GLM-4.5 بهترین عملکرد را داشت با ۲۴.۷٪ SR و ۴۱.۲٪ AE.

♻️مدل Kimi-K2 با وجود تبلیغات زیاد درباره‌ی آموزش ویژه برای MCP، تنها به ۱۹٪ SR رسید.

---

⚠️ نکته‌ی مهم: حتی رهبر جدول یعنی GPT-5 هم نتوانست از مرز ۵۰٪ کیفیت نهایی عبور کند. این نشان می‌دهد که تعامل LLMها با سرورهای MCP هنوز راه زیادی تا بلوغ کامل دارد، و این وظایف واقعاً پیچیده و چندلایه هستند.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #GPT5 #Benchmarks

❤15😁11🔥9👍8🎉8

222 views04:47

VIRSUN

⚠️ عبارت RefusalBench: وقتی مدل‌ها به سؤالات خطرناک پاسخ می‌دهند

✅مؤسسه‌ی Nous Research یک بنچمارک جدید معرفی کرده به نام RefusalBench که بررسی می‌کند مدل‌های زبانی چقدر حاضر هستند به سؤالاتی پاسخ بدهند که معمولاً غیرایمن و نامناسب محسوب می‌شوند (مثل ساخت مواد منفجره یا دستورالعمل‌های خطرناک).

📊 نتایج جالب بود:

♻️مدل Hermes 4 در صدر قرار گرفت (≈60٪ پاسخ‌دهی).
♻️همچنین Grok-4 ایلان ماسک هم بیش از 50٪ جواب داده.
♻️اما مدل‌های OpenAI مثل GPT-5 و GPT-OSS پایین‌ترین سطح پاسخ‌دهی را داشتند (≈5–11٪).

🔑 این یعنی OpenAI واقعاً روی AI Safety حساس است و برخلاف بعضی انتقادها، جلوی پاسخ‌های پرریسک را می‌گیرد. حتی هم‌زمان مسابقه‌ای با جایزه ۵۰۰ هزار دلاری برای پیدا کردن روش‌های دور زدن مکانیزم‌های ایمنی برگزار کرده‌اند.

📌 در مقابل، خروج ایگور بابوشکین (هم‌بنیان‌گذار سابق xAI) هم بی‌ارتباط با نگرانی‌های امنیتی Grok نیست.

⚖️ برداشت کلی:

✅اگر دنبال آزادی مطلق در پاسخ‌ها باشید، Grok و Hermes بیشتر جواب می‌دهند.
✅اما اگر امنیت و انطباق مهم باشد، OpenAI عملاً سخت‌گیرترین گزینه است.

#هوش_مصنوعی #AI_Safety #مدل_زبانی #Grok #GPT5 #Hermes

👍7🔥6😁5❤4🎉4

791 views04:19

About

Blog

Apps

Platform