VIRSUN

🧩 بنچمارک جدید برای LLM — Werewolf Benchmark

در ماه‌های اخیر بنچمارک‌های خلاقانه و متفاوتی برای مدل‌های زبانی بزرگ معرفی شده‌اند. یکی از تازه‌ترین‌ها Werewolf Benchmark است که توانایی استدلال اجتماعی تحت فشار را می‌سنجد.

🎭 این تست بر اساس بازی «مافیا» ساخته شده (که در دانشگاه دولتی مسکو اختراع شد).

نقش‌ها: شهروندان، گرگینه‌ها، دکتر، غیب‌گو، شکارچی و …

شب گرگینه‌ها قربانی انتخاب می‌کنند، روز همه رأی می‌دهند چه کسی گرگینه است.

⚙️ روش کار:

♻️فرض کنید ۶ بازیکن داریم.
♻️سه بازیکن توسط مدل A و سه بازیکن توسط مدل B کنترل می‌شوند.
♻️هر مدل فکر می‌کند با افراد مستقل روبه‌روست، در حالی که در واقع «مغز واحدی» پشت بازیکنان است.

💡 نتیجه این طراحی:

♻️امکان تشکیل اتحادها 🤝
♻️بلف زدن 🃏
♻️قربانی کردن اعضای خودی
♻️ساخت روایت‌های دروغین و ایجاد دسیسه

📊 در جدول رتبه‌بندی فعلی، GPT-5 با اختلاف زیاد اول است. این یعنی نه‌تنها توانایی استدلال و استراتژی بالایی دارد، بلکه توانایی فریب دادن را هم نشان می‌دهد 😐

👉 این تست ابزاری جالب برای مطالعه الگوهای رفتاری مدل‌های زبانی است.

🔗 جزئیات و لیدربورد: werewolf.foaster.ai

@rss_ai_ir 🐺🤖

#هوش_مصنوعی #LLM #بنچمارک #مافیا #گرگینه #استدلال_اجتماعی

❤2🔥2👍1👏1

188 views04:25

VIRSUN

🧩 زنجیره فکر (Chain-of-Thought) در مدل‌های زبانی بزرگ

وقتی از یک مدل زبانی سوال می‌پرسیم، همیشه بهتر نیست فقط جواب نهایی را بدهد.
گاهی لازم است مدل مسیر استدلال خود را مرحله‌به‌مرحله بازگو کند؛ این همان چیزی است که به آن زنجیره فکر (CoT) می‌گوییم.

🔹 چرا مهم است؟
توانایی حل مسائل چندمرحله‌ای (ریاضی، منطقی، برنامه‌ریزی).
کاهش خطاهای «پرش مستقیم به جواب».
شفافیت در نحوه رسیدن مدل به نتیجه.

🔹 مثال ساده

❓ علی ۳ سیب دارد، رضا ۲ سیب دارد. در مجموع چند سیب دارند؟
✅ پاسخ بدون زنجیره فکر: ۵
✅ پاسخ با زنجیره فکر: علی ۳ سیب دارد، رضا ۲ سیب دارد → ۳+۲=۵

📊 پژوهش‌ها نشان داده‌اند که استفاده از CoT باعث می‌شود مدل‌ها در حل مسائل پیچیده عملکرد بسیار بهتری داشته باشند.

@rss_ai_ir 🤖🧠
#هوش_مصنوعی #LLM #زنجیره_فکر #Chain_of_Thought #مدل_زبان

👍2🔥1👏1

213 views04:51

About

Blog

Apps

Platform