VIRSUN

🧠 SSRL: Self-Search Reinforcement Learning

♻️مقاله‌ای تازه از Yanxu Chen و همکاران رویکردی نو به آموزش مدل‌های زبانی بزرگ (LLMs) معرفی کرده: یادگیری تقویتی با جستجوی درونی (Self-Search RL).
---

🔹 ایده اصلی
♻️به جای اینکه مدل برای یادگیری نیازمند اتصال به موتورهای جستجوی بیرونی باشه (که هزینه‌بر و کند است)، در محیطی شبیه‌سازی‌شده از خودش به عنوان عامل و محیط استفاده می‌کنه. مدل به‌صورت خودبازگشتی (autoregressive) هم کوئری جستجو تولید می‌کنه و هم پاسخ اطلاعاتی، و سپس با پاداش‌های مبتنی بر فرمت و نتیجه آموزش داده میشه.

---

🔹 هدف

♻️سنجش ظرفیت‌های جستجوی درونی (intrinsic search capabilities) در LLMها

♻️بررسی اینکه آیا آموزش در محیط «کاملاً شبیه‌سازی‌شده» می‌تونه به انتقال مؤثر در دنیای واقعی (sim-to-real transfer) منجر بشه یا نه.

---

🔹 نتایج کلیدی

♻️مدل Llama-3.1-8B-Instruct که با SSRL آموزش دید، در شش بنچمارک به میانگین ۴۳.۱٪ دقت رسید.
♻️این عملکرد از ZeroSearch (با ۴۱.۵٪) بهتر بود.
♻️در مقایسه با روش‌های وابسته به API، SSRL هزینه آموزش رو به‌شدت کاهش میده، چون نیازی به فراخوانی مداوم APIها نداره.

---

🔹 پیام برای متخصصان AI
♻️همچنین SSRL یک پارادایم کم‌هزینه و کارآمد برای آموزش عامل‌های جستجو فراهم می‌کنه.
♻️مدل‌ها در فاز آموزش کاملاً روی داده‌های شبیه‌سازی‌شده تمرین می‌کنن، و بعد می‌تونن در زمان استقرار واقعی با موتورهای جستجو به‌کار گرفته بشن. این یعنی ترکیب سرعت، کاهش هزینه و بهبود کارایی در توسعه نسل بعدی عامل‌های جستجوگر.

📌 بیشتر بخوانید:

arXiv

HuggingFace Papers

#هوش_مصنوعی #یادگیری_تقویتی #LLM #SSRL #جستجو
@rss_ai_ir

🔥7👍6🥰6👏6😁5❤4🎉3

1.64K viewsedited 14:30

About

Blog

Apps

Platform