🧩 بنچمارک جدید برای LLM — Werewolf Benchmark
در ماههای اخیر بنچمارکهای خلاقانه و متفاوتی برای مدلهای زبانی بزرگ معرفی شدهاند. یکی از تازهترینها Werewolf Benchmark است که توانایی استدلال اجتماعی تحت فشار را میسنجد.
🎭 این تست بر اساس بازی «مافیا» ساخته شده (که در دانشگاه دولتی مسکو اختراع شد).
نقشها: شهروندان، گرگینهها، دکتر، غیبگو، شکارچی و …
شب گرگینهها قربانی انتخاب میکنند، روز همه رأی میدهند چه کسی گرگینه است.
⚙️ روش کار:
♻️فرض کنید ۶ بازیکن داریم.
♻️سه بازیکن توسط مدل A و سه بازیکن توسط مدل B کنترل میشوند.
♻️هر مدل فکر میکند با افراد مستقل روبهروست، در حالی که در واقع «مغز واحدی» پشت بازیکنان است.
💡 نتیجه این طراحی:
♻️امکان تشکیل اتحادها 🤝
♻️بلف زدن 🃏
♻️قربانی کردن اعضای خودی
♻️ساخت روایتهای دروغین و ایجاد دسیسه
📊 در جدول رتبهبندی فعلی، GPT-5 با اختلاف زیاد اول است. این یعنی نهتنها توانایی استدلال و استراتژی بالایی دارد، بلکه توانایی فریب دادن را هم نشان میدهد 😐
👉 این تست ابزاری جالب برای مطالعه الگوهای رفتاری مدلهای زبانی است.
🔗 جزئیات و لیدربورد: werewolf.foaster.ai
@rss_ai_ir 🐺🤖
#هوش_مصنوعی #LLM #بنچمارک #مافیا #گرگینه #استدلال_اجتماعی
در ماههای اخیر بنچمارکهای خلاقانه و متفاوتی برای مدلهای زبانی بزرگ معرفی شدهاند. یکی از تازهترینها Werewolf Benchmark است که توانایی استدلال اجتماعی تحت فشار را میسنجد.
🎭 این تست بر اساس بازی «مافیا» ساخته شده (که در دانشگاه دولتی مسکو اختراع شد).
نقشها: شهروندان، گرگینهها، دکتر، غیبگو، شکارچی و …
شب گرگینهها قربانی انتخاب میکنند، روز همه رأی میدهند چه کسی گرگینه است.
⚙️ روش کار:
♻️فرض کنید ۶ بازیکن داریم.
♻️سه بازیکن توسط مدل A و سه بازیکن توسط مدل B کنترل میشوند.
♻️هر مدل فکر میکند با افراد مستقل روبهروست، در حالی که در واقع «مغز واحدی» پشت بازیکنان است.
💡 نتیجه این طراحی:
♻️امکان تشکیل اتحادها 🤝
♻️بلف زدن 🃏
♻️قربانی کردن اعضای خودی
♻️ساخت روایتهای دروغین و ایجاد دسیسه
📊 در جدول رتبهبندی فعلی، GPT-5 با اختلاف زیاد اول است. این یعنی نهتنها توانایی استدلال و استراتژی بالایی دارد، بلکه توانایی فریب دادن را هم نشان میدهد 😐
👉 این تست ابزاری جالب برای مطالعه الگوهای رفتاری مدلهای زبانی است.
🔗 جزئیات و لیدربورد: werewolf.foaster.ai
@rss_ai_ir 🐺🤖
#هوش_مصنوعی #LLM #بنچمارک #مافیا #گرگینه #استدلال_اجتماعی
❤2🔥2👍1👏1
🧩 زنجیره فکر (Chain-of-Thought) در مدلهای زبانی بزرگ
وقتی از یک مدل زبانی سوال میپرسیم، همیشه بهتر نیست فقط جواب نهایی را بدهد.
گاهی لازم است مدل مسیر استدلال خود را مرحلهبهمرحله بازگو کند؛ این همان چیزی است که به آن زنجیره فکر (CoT) میگوییم.
🔹 چرا مهم است؟
توانایی حل مسائل چندمرحلهای (ریاضی، منطقی، برنامهریزی).
کاهش خطاهای «پرش مستقیم به جواب».
شفافیت در نحوه رسیدن مدل به نتیجه.
🔹 مثال ساده
❓ علی ۳ سیب دارد، رضا ۲ سیب دارد. در مجموع چند سیب دارند؟
✅ پاسخ بدون زنجیره فکر: ۵
✅ پاسخ با زنجیره فکر: علی ۳ سیب دارد، رضا ۲ سیب دارد → ۳+۲=۵
📊 پژوهشها نشان دادهاند که استفاده از CoT باعث میشود مدلها در حل مسائل پیچیده عملکرد بسیار بهتری داشته باشند.
@rss_ai_ir 🤖🧠
#هوش_مصنوعی #LLM #زنجیره_فکر #Chain_of_Thought #مدل_زبان
وقتی از یک مدل زبانی سوال میپرسیم، همیشه بهتر نیست فقط جواب نهایی را بدهد.
گاهی لازم است مدل مسیر استدلال خود را مرحلهبهمرحله بازگو کند؛ این همان چیزی است که به آن زنجیره فکر (CoT) میگوییم.
🔹 چرا مهم است؟
توانایی حل مسائل چندمرحلهای (ریاضی، منطقی، برنامهریزی).
کاهش خطاهای «پرش مستقیم به جواب».
شفافیت در نحوه رسیدن مدل به نتیجه.
🔹 مثال ساده
❓ علی ۳ سیب دارد، رضا ۲ سیب دارد. در مجموع چند سیب دارند؟
✅ پاسخ بدون زنجیره فکر: ۵
✅ پاسخ با زنجیره فکر: علی ۳ سیب دارد، رضا ۲ سیب دارد → ۳+۲=۵
📊 پژوهشها نشان دادهاند که استفاده از CoT باعث میشود مدلها در حل مسائل پیچیده عملکرد بسیار بهتری داشته باشند.
@rss_ai_ir 🤖🧠
#هوش_مصنوعی #LLM #زنجیره_فکر #Chain_of_Thought #مدل_زبان
👍2🔥1👏1