🎛 شخصیتسازی در مدلهای زبانی فقط با یک اسلایدر!
پژوهشگران Anthropic موفق شدهاند جهتهای مشخصی در فضای فعالسازی مدلهای زبانی بزرگ (LLM) کشف کنند که به آنها امکان میدهد «شخصیت» مدل را فقط با یک وکتور تغییر دهند.
✅ مدل چاپلوس رو تبدیل کن به منتقد رکگو
✅ مدل منفیباف رو به خوشبین تبدیل کن
✅ فقط با یک forward pass — بدون نیاز به fine-tune سنگین یا RLHF
📌 چگونه این وکتورها ساخته میشوند؟
1. یک ویژگی رفتاری (مثل چاپلوسی) تعریف میشود
2. پرامپتهایی طراحی میشوند که مدل را به دو حالت رفتاری مختلف ببرند
3. تفاوت فعالسازیها استخراج و وکتور مربوط به آن ویژگی ساخته میشود
🧪 آزمایشها نشان داد:
+1.5× وکتور «evil» → مدل طرح جرم میریزد
−1.5× → مدل مثل کشیش پاسخ میدهد
📊 این تغییرات علیّتی هستند، نه فقط همبستگی آماری!
🛠 کاربردهای مهندسی:
🔹 رصد زنده خطای مدل با projection روی وکتور hallucination
🔹 اعمال واکسن شخصیتی هنگام fine-tune
🔹 فیلتر دیتاستها با projection روی وکتورهای منفی مثل "toxic" یا "evil"
🌐 آینده LLMها: کنترل رفتار با یک اسلایدر، مثل کم و زیاد کردن صدای موسیقی!
📚 منابع:
1. مقاله اصلی در بلاگ Anthropic
2. مقاله تحقیقاتی در arXiv
👨💻 تو دوست داشتی کدوم ویژگی مدل رو تغییر بدی؟ رکگویی؟ شوخطبعی؟ اعتمادبهنفس؟
🧠 @rss_ai_ir
#LLM #AI #هوش_مصنوعی #مهندسی_پرامپت #شخصیت_مدل #PersonaVectors
پژوهشگران Anthropic موفق شدهاند جهتهای مشخصی در فضای فعالسازی مدلهای زبانی بزرگ (LLM) کشف کنند که به آنها امکان میدهد «شخصیت» مدل را فقط با یک وکتور تغییر دهند.
✅ مدل چاپلوس رو تبدیل کن به منتقد رکگو
✅ مدل منفیباف رو به خوشبین تبدیل کن
✅ فقط با یک forward pass — بدون نیاز به fine-tune سنگین یا RLHF
📌 چگونه این وکتورها ساخته میشوند؟
1. یک ویژگی رفتاری (مثل چاپلوسی) تعریف میشود
2. پرامپتهایی طراحی میشوند که مدل را به دو حالت رفتاری مختلف ببرند
3. تفاوت فعالسازیها استخراج و وکتور مربوط به آن ویژگی ساخته میشود
🧪 آزمایشها نشان داد:
+1.5× وکتور «evil» → مدل طرح جرم میریزد
−1.5× → مدل مثل کشیش پاسخ میدهد
📊 این تغییرات علیّتی هستند، نه فقط همبستگی آماری!
🛠 کاربردهای مهندسی:
🔹 رصد زنده خطای مدل با projection روی وکتور hallucination
🔹 اعمال واکسن شخصیتی هنگام fine-tune
🔹 فیلتر دیتاستها با projection روی وکتورهای منفی مثل "toxic" یا "evil"
🌐 آینده LLMها: کنترل رفتار با یک اسلایدر، مثل کم و زیاد کردن صدای موسیقی!
📚 منابع:
1. مقاله اصلی در بلاگ Anthropic
2. مقاله تحقیقاتی در arXiv
👨💻 تو دوست داشتی کدوم ویژگی مدل رو تغییر بدی؟ رکگویی؟ شوخطبعی؟ اعتمادبهنفس؟
🧠 @rss_ai_ir
#LLM #AI #هوش_مصنوعی #مهندسی_پرامپت #شخصیت_مدل #PersonaVectors
❤18👏18😁16🥰14🎉14👍13🔥12