🧠 مدل ThinkDial: کنترل باز و دقیق بر میزان استدلال در LLMها
پژوهشگران با معرفی ThinkDial اولین چارچوب بازمتن (Open-Recipe) برای کنترل سطح استدلال در مدلهای زبانی بزرگ (LLMها) را ارائه کردهاند. این چارچوب همان چیزی است که پیشتر در سیستمهای اختصاصی مثل GPT-OSS دیده بودیم، اما حالا به شکل باز در دسترس پژوهشگران قرار گرفته است.
🔑 ایده اصلی
به جای اینکه مدل همیشه با حداکثر توان استدلال کند (که هزینه محاسباتی بالایی دارد)، ThinkDial به شما اجازه میدهد بین حالتهای مختلف عملیات جابهجا شوید:
✳️حالت Medium: کاهش ۵۰٪ تعداد توکنها، با کمتر از ۱۰٪ افت کارایی
✳️حالت Low: کاهش ۷۵٪ توکنها، با کمتر از ۱۵٪ افت کارایی
✳️این یعنی شما میتوانید سطح استدلال را بر اساس نیاز پروژه (مثلاً چت سبک، تحلیل سریع یا پژوهش دقیق) تنظیم کنید.
⚡ نوآوریها
1. Budget-Mode Supervised Fine-tuning → تنظیم دقیق مدل برای سطوح مختلف مصرف محاسباتی.
2. Budget-Aware Reinforcement Learning → یادگیری تقویتی دومرحلهای برای هماهنگی دقت و هزینه.
3. Leak Penalty → مکانیزمی که مانع از آن میشود مدل استدلال را به بخش نهایی پاسخ منتقل کند (یعنی واقعاً تعداد توکنهای استدلال کاهش یابد).
📊 مزیتها برای صنعت
♻️کاهش هزینه اجرای مدلها در دیتاسنترها.
♻️امکان استقرار مدل روی دستگاههای با منابع محدود.
♻️انعطافپذیری بالا برای کاربردهای مختلف: از دستیارهای گفتوگویی سبک گرفته تا تحلیلهای پیچیده مالی یا علمی.
📄 مقاله: arXiv
🖥️ مدلها و کد: HuggingFace
#هوش_مصنوعی #LLM #بهینهسازی #استدلال_ماشین #ThinkDial
@rss_ai_ir
پژوهشگران با معرفی ThinkDial اولین چارچوب بازمتن (Open-Recipe) برای کنترل سطح استدلال در مدلهای زبانی بزرگ (LLMها) را ارائه کردهاند. این چارچوب همان چیزی است که پیشتر در سیستمهای اختصاصی مثل GPT-OSS دیده بودیم، اما حالا به شکل باز در دسترس پژوهشگران قرار گرفته است.
🔑 ایده اصلی
به جای اینکه مدل همیشه با حداکثر توان استدلال کند (که هزینه محاسباتی بالایی دارد)، ThinkDial به شما اجازه میدهد بین حالتهای مختلف عملیات جابهجا شوید:
✳️حالت Medium: کاهش ۵۰٪ تعداد توکنها، با کمتر از ۱۰٪ افت کارایی
✳️حالت Low: کاهش ۷۵٪ توکنها، با کمتر از ۱۵٪ افت کارایی
✳️این یعنی شما میتوانید سطح استدلال را بر اساس نیاز پروژه (مثلاً چت سبک، تحلیل سریع یا پژوهش دقیق) تنظیم کنید.
⚡ نوآوریها
1. Budget-Mode Supervised Fine-tuning → تنظیم دقیق مدل برای سطوح مختلف مصرف محاسباتی.
2. Budget-Aware Reinforcement Learning → یادگیری تقویتی دومرحلهای برای هماهنگی دقت و هزینه.
3. Leak Penalty → مکانیزمی که مانع از آن میشود مدل استدلال را به بخش نهایی پاسخ منتقل کند (یعنی واقعاً تعداد توکنهای استدلال کاهش یابد).
📊 مزیتها برای صنعت
♻️کاهش هزینه اجرای مدلها در دیتاسنترها.
♻️امکان استقرار مدل روی دستگاههای با منابع محدود.
♻️انعطافپذیری بالا برای کاربردهای مختلف: از دستیارهای گفتوگویی سبک گرفته تا تحلیلهای پیچیده مالی یا علمی.
📄 مقاله: arXiv
🖥️ مدلها و کد: HuggingFace
#هوش_مصنوعی #LLM #بهینهسازی #استدلال_ماشین #ThinkDial
@rss_ai_ir
👍1🔥1👏1