🧠 SSRL: Self-Search Reinforcement Learning
♻️مقالهای تازه از Yanxu Chen و همکاران رویکردی نو به آموزش مدلهای زبانی بزرگ (LLMs) معرفی کرده: یادگیری تقویتی با جستجوی درونی (Self-Search RL).
---
🔹 ایده اصلی
♻️به جای اینکه مدل برای یادگیری نیازمند اتصال به موتورهای جستجوی بیرونی باشه (که هزینهبر و کند است)، در محیطی شبیهسازیشده از خودش به عنوان عامل و محیط استفاده میکنه. مدل بهصورت خودبازگشتی (autoregressive) هم کوئری جستجو تولید میکنه و هم پاسخ اطلاعاتی، و سپس با پاداشهای مبتنی بر فرمت و نتیجه آموزش داده میشه.
---
🔹 هدف
♻️سنجش ظرفیتهای جستجوی درونی (intrinsic search capabilities) در LLMها
♻️بررسی اینکه آیا آموزش در محیط «کاملاً شبیهسازیشده» میتونه به انتقال مؤثر در دنیای واقعی (sim-to-real transfer) منجر بشه یا نه.
---
🔹 نتایج کلیدی
♻️مدل Llama-3.1-8B-Instruct که با SSRL آموزش دید، در شش بنچمارک به میانگین ۴۳.۱٪ دقت رسید.
♻️این عملکرد از ZeroSearch (با ۴۱.۵٪) بهتر بود.
♻️در مقایسه با روشهای وابسته به API، SSRL هزینه آموزش رو بهشدت کاهش میده، چون نیازی به فراخوانی مداوم APIها نداره.
---
🔹 پیام برای متخصصان AI
♻️همچنین SSRL یک پارادایم کمهزینه و کارآمد برای آموزش عاملهای جستجو فراهم میکنه.
♻️مدلها در فاز آموزش کاملاً روی دادههای شبیهسازیشده تمرین میکنن، و بعد میتونن در زمان استقرار واقعی با موتورهای جستجو بهکار گرفته بشن. این یعنی ترکیب سرعت، کاهش هزینه و بهبود کارایی در توسعه نسل بعدی عاملهای جستجوگر.
📌 بیشتر بخوانید:
arXiv
HuggingFace Papers
#هوش_مصنوعی #یادگیری_تقویتی #LLM #SSRL #جستجو
@rss_ai_ir
♻️مقالهای تازه از Yanxu Chen و همکاران رویکردی نو به آموزش مدلهای زبانی بزرگ (LLMs) معرفی کرده: یادگیری تقویتی با جستجوی درونی (Self-Search RL).
---
🔹 ایده اصلی
♻️به جای اینکه مدل برای یادگیری نیازمند اتصال به موتورهای جستجوی بیرونی باشه (که هزینهبر و کند است)، در محیطی شبیهسازیشده از خودش به عنوان عامل و محیط استفاده میکنه. مدل بهصورت خودبازگشتی (autoregressive) هم کوئری جستجو تولید میکنه و هم پاسخ اطلاعاتی، و سپس با پاداشهای مبتنی بر فرمت و نتیجه آموزش داده میشه.
---
🔹 هدف
♻️سنجش ظرفیتهای جستجوی درونی (intrinsic search capabilities) در LLMها
♻️بررسی اینکه آیا آموزش در محیط «کاملاً شبیهسازیشده» میتونه به انتقال مؤثر در دنیای واقعی (sim-to-real transfer) منجر بشه یا نه.
---
🔹 نتایج کلیدی
♻️مدل Llama-3.1-8B-Instruct که با SSRL آموزش دید، در شش بنچمارک به میانگین ۴۳.۱٪ دقت رسید.
♻️این عملکرد از ZeroSearch (با ۴۱.۵٪) بهتر بود.
♻️در مقایسه با روشهای وابسته به API، SSRL هزینه آموزش رو بهشدت کاهش میده، چون نیازی به فراخوانی مداوم APIها نداره.
---
🔹 پیام برای متخصصان AI
♻️همچنین SSRL یک پارادایم کمهزینه و کارآمد برای آموزش عاملهای جستجو فراهم میکنه.
♻️مدلها در فاز آموزش کاملاً روی دادههای شبیهسازیشده تمرین میکنن، و بعد میتونن در زمان استقرار واقعی با موتورهای جستجو بهکار گرفته بشن. این یعنی ترکیب سرعت، کاهش هزینه و بهبود کارایی در توسعه نسل بعدی عاملهای جستجوگر.
📌 بیشتر بخوانید:
arXiv
HuggingFace Papers
#هوش_مصنوعی #یادگیری_تقویتی #LLM #SSRL #جستجو
@rss_ai_ir
🔥7👍6🥰6👏6😁5❤4🎉3