VIRSUN

🎛 شخصیت‌سازی در مدل‌های زبانی فقط با یک اسلایدر!

پژوهشگران Anthropic موفق شده‌اند جهت‌های مشخصی در فضای فعال‌سازی مدل‌های زبانی بزرگ (LLM) کشف کنند که به آن‌ها امکان می‌دهد «شخصیت» مدل را فقط با یک وکتور تغییر دهند.

✅ مدل چاپلوس رو تبدیل کن به منتقد رک‌گو
✅ مدل منفی‌باف رو به خوش‌بین تبدیل کن
✅ فقط با یک forward pass — بدون نیاز به fine-tune سنگین یا RLHF

📌 چگونه این وکتورها ساخته می‌شوند؟

1. یک ویژگی رفتاری (مثل چاپلوسی) تعریف می‌شود
2. پرامپت‌هایی طراحی می‌شوند که مدل را به دو حالت رفتاری مختلف ببرند
3. تفاوت فعال‌سازی‌ها استخراج و وکتور مربوط به آن ویژگی ساخته می‌شود

🧪 آزمایش‌ها نشان داد:
+1.5× وکتور «evil» → مدل طرح جرم می‌ریزد
−1.5× → مدل مثل کشیش پاسخ می‌دهد
📊 این تغییرات علیّتی هستند، نه فقط همبستگی آماری!

🛠 کاربردهای مهندسی:
🔹 رصد زنده خطای مدل با projection روی وکتور hallucination
🔹 اعمال واکسن شخصیتی هنگام fine-tune
🔹 فیلتر دیتاست‌ها با projection روی وکتورهای منفی مثل "toxic" یا "evil"

🌐 آینده LLMها: کنترل رفتار با یک اسلایدر، مثل کم و زیاد کردن صدای موسیقی!

📚 منابع:

1. مقاله اصلی در بلاگ Anthropic
2. مقاله تحقیقاتی در arXiv

👨‍💻 تو دوست داشتی کدوم ویژگی مدل رو تغییر بدی؟ رک‌گویی؟ شوخ‌طبعی؟ اعتماد‌به‌نفس؟

🧠 @rss_ai_ir
#LLM #AI #هوش_مصنوعی #مهندسی_پرامپت #شخصیت_مدل #PersonaVectors

❤18👏18😁16🥰14🎉14👍13🔥12

257 views07:12

About

Blog

Apps

Platform