🔥 پر سر و صداترین مقاله ماه: Hierarchical Reasoning Model (HRM)
بدون مقدمه، بریم سر اصل ماجرا:
محققان مدلی با تنها ۲۷ میلیون پارامتر ساختهاند که روی بِنچمارک ARC-AGI-1 حتی از o3-mini بهتر عمل کرده. همین باعث شده کل جامعه تحقیقاتی در موردش صحبت کنن؛ حتی خود تیم ARC-AGI یک تحلیل مفصل از نتایج این مدل منتشر کرده.
---
🧩 ایده اصلی
معماری HRM شامل دو ماژول بازگشتی است:
یک ماژول سریع و سطح پایین → حل محلی و جزیی مسائل.
یک ماژول کندتر و سطح بالا → مدیریت انتزاعی و دادن تسک به ماژول پایین.
🔄 نکته کلیدی اینه که این دو ماژول با فرکانسهای متفاوت آپدیت میشن:
♻️ماژول بالا در هر چرخه فقط یک بار آپدیت میشه.
♻️ماژول پایین در همون چرخه چندین بار قدمهای کوچک محاسباتی برمیداره.
♻️به این ترتیب، مدل میتونه یک مسئله رو به چرخههای استدلالی بشکنه و همزمان هم تصویر کلان رو نگه داره، هم جزئیات محلی رو حل کنه.
---
🛠️ یادگیری
مدل با کمک RL یاد میگیره که چه زمانی باید متوقف بشه یا ادامه بده. پس میتونه بعضی وقتها فقط چند ثانیه فکر کنه و بعضی وقتها چند ساعت!
برای آموزش هم برخلاف مدلهای RNN کلاسیک، فقط گرادیان حالت نهایی رو نگه میدارن و نه همه حالتهای میانی. نتیجه؟ سادهتر، سبکتر و در کمال تعجب کاملاً کارآمد.
---
🧠 شباهت به مغز انسان
این معماری خیلی شبیه کارکرد مغزه:
♻️بعضی بخشها مسئول انتزاع و بعضی مسئول واکنش سریع هستن.
♻️ارتباط بین این بخشها از طریق فیدبکهای سلسلهمراتبی انجام میشه.
♻️حتی مغز هم حالتهای میانی رو ذخیره نمیکنه، بلکه بهتدریج از چرخههای موجی به سمت همگرایی میره.
---
📊 نتیجه
♻️برای مدلی به این کوچکی، عملکردش در حل پازلها، سودوکو، مازها و مسائل استقرایی بیسابقه است.
♻️جایی که LLMهای معمولی شکست میخورن، HRM موفق ظاهر میشه.
♻️و البته اوج ماجرا، رکورد روی ARC-AGI است.
---
📖 مقاله کامل: [Arxiv / HRM Paper]
📌 تحلیل عالی به زبان روسی هم موجوده (لینک در متن اصلی).
@rss_ai_ir
#هوش_مصنوعی #یادگیری_عمیق #AGI #شبکه_عصبی #ARC_AGI
بدون مقدمه، بریم سر اصل ماجرا:
محققان مدلی با تنها ۲۷ میلیون پارامتر ساختهاند که روی بِنچمارک ARC-AGI-1 حتی از o3-mini بهتر عمل کرده. همین باعث شده کل جامعه تحقیقاتی در موردش صحبت کنن؛ حتی خود تیم ARC-AGI یک تحلیل مفصل از نتایج این مدل منتشر کرده.
---
🧩 ایده اصلی
معماری HRM شامل دو ماژول بازگشتی است:
یک ماژول سریع و سطح پایین → حل محلی و جزیی مسائل.
یک ماژول کندتر و سطح بالا → مدیریت انتزاعی و دادن تسک به ماژول پایین.
🔄 نکته کلیدی اینه که این دو ماژول با فرکانسهای متفاوت آپدیت میشن:
♻️ماژول بالا در هر چرخه فقط یک بار آپدیت میشه.
♻️ماژول پایین در همون چرخه چندین بار قدمهای کوچک محاسباتی برمیداره.
♻️به این ترتیب، مدل میتونه یک مسئله رو به چرخههای استدلالی بشکنه و همزمان هم تصویر کلان رو نگه داره، هم جزئیات محلی رو حل کنه.
---
🛠️ یادگیری
مدل با کمک RL یاد میگیره که چه زمانی باید متوقف بشه یا ادامه بده. پس میتونه بعضی وقتها فقط چند ثانیه فکر کنه و بعضی وقتها چند ساعت!
برای آموزش هم برخلاف مدلهای RNN کلاسیک، فقط گرادیان حالت نهایی رو نگه میدارن و نه همه حالتهای میانی. نتیجه؟ سادهتر، سبکتر و در کمال تعجب کاملاً کارآمد.
---
🧠 شباهت به مغز انسان
این معماری خیلی شبیه کارکرد مغزه:
♻️بعضی بخشها مسئول انتزاع و بعضی مسئول واکنش سریع هستن.
♻️ارتباط بین این بخشها از طریق فیدبکهای سلسلهمراتبی انجام میشه.
♻️حتی مغز هم حالتهای میانی رو ذخیره نمیکنه، بلکه بهتدریج از چرخههای موجی به سمت همگرایی میره.
---
📊 نتیجه
♻️برای مدلی به این کوچکی، عملکردش در حل پازلها، سودوکو، مازها و مسائل استقرایی بیسابقه است.
♻️جایی که LLMهای معمولی شکست میخورن، HRM موفق ظاهر میشه.
♻️و البته اوج ماجرا، رکورد روی ARC-AGI است.
---
📖 مقاله کامل: [Arxiv / HRM Paper]
📌 تحلیل عالی به زبان روسی هم موجوده (لینک در متن اصلی).
@rss_ai_ir
#هوش_مصنوعی #یادگیری_عمیق #AGI #شبکه_عصبی #ARC_AGI
🎉16😁12🔥10❤9🥰9👏9👍8