⚡️ مدلهای زبانی GPT-OSS با فرمت GGUF توسط تیم Unsloth بهینهسازی و منتشر شدند
@rss_ai_ir
تیم توسعهدهنده Unsloth دو نسخه از مدلهای GPT-OSS با ۲۰ و ۱۲۰ میلیارد پارامتر را به فرمت GGUF تبدیل کرده و با رفع برخی ایرادات، کیفیت استنتاج (Inference) آنها را بهطور قابل توجهی افزایش دادهاند.
---
📌 پیکربندی پیشنهادی برای اجرا:
🔹 مدل با ۲۰ میلیارد پارامتر در حالت دقت کامل، تنها به ۱۴ گیگابایت حافظه رم نیاز دارد و با سرعتی بیش از ۱۰ توکن بر ثانیه اجرا میشود.
🔹 مدل ۱۲۰ میلیاردی نیز با حدود ۶۴ گیگ رم، خروجی بالای ۴۰ توکن بر ثانیه ارائه میدهد.
🔸 حتی در سیستمهایی با ۶ گیگ رم و بدون GPU هم امکان اجرا وجود دارد، اما سرعت استنتاج پایینتر خواهد بود.
---
📈 در صورت استفاده از کارت گرافیک، عملکرد مدلها بهمراتب بهتر خواهد بود.
برخی تستها با GPU قدرتمند H100 نشان دادهاند که سرعت خروجی به بیش از ۱۴۰ توکن بر ثانیه میرسد که حتی از ChatGPT نیز سریعتر است.
---
🧠 روشهای قابل استفاده برای اجرا:
اجرای مستقیم با ابزار llama.cpp
نرمافزارهای رابط مانند LM Studio
محیطهای تعاملی مانند Open WebUI
📌 مدل ۲۰B در عین سبک بودن، عملکردی نزدیک به مدلهایی مانند o3-mini دارد و برای سیستمهای ضعیفتر بسیار مناسب است.
---
🔧 نسخههایی با دقت ۴ بیت و ۱۶ بیت نیز آماده شدهاند.
نسخه ۴ بیتی حتی قابلیت فاینتیون روی کارتهای گرافیک با ۲۴ گیگابایت VRAM را دارد.
📄 مستندات کامل برای نصب و آموزش، توسط تیم Unsloth منتشر شده و گامبهگام مراحل راهاندازی را توضیح داده است.
منابع:
لینک 1
لینک 2
#مدل_زبانی #هوش_مصنوعی #GPT_OSS #Unsloth #GGUF #LLM
@rss_ai_ir
@rss_ai_ir
تیم توسعهدهنده Unsloth دو نسخه از مدلهای GPT-OSS با ۲۰ و ۱۲۰ میلیارد پارامتر را به فرمت GGUF تبدیل کرده و با رفع برخی ایرادات، کیفیت استنتاج (Inference) آنها را بهطور قابل توجهی افزایش دادهاند.
---
📌 پیکربندی پیشنهادی برای اجرا:
🔹 مدل با ۲۰ میلیارد پارامتر در حالت دقت کامل، تنها به ۱۴ گیگابایت حافظه رم نیاز دارد و با سرعتی بیش از ۱۰ توکن بر ثانیه اجرا میشود.
🔹 مدل ۱۲۰ میلیاردی نیز با حدود ۶۴ گیگ رم، خروجی بالای ۴۰ توکن بر ثانیه ارائه میدهد.
🔸 حتی در سیستمهایی با ۶ گیگ رم و بدون GPU هم امکان اجرا وجود دارد، اما سرعت استنتاج پایینتر خواهد بود.
---
📈 در صورت استفاده از کارت گرافیک، عملکرد مدلها بهمراتب بهتر خواهد بود.
برخی تستها با GPU قدرتمند H100 نشان دادهاند که سرعت خروجی به بیش از ۱۴۰ توکن بر ثانیه میرسد که حتی از ChatGPT نیز سریعتر است.
---
🧠 روشهای قابل استفاده برای اجرا:
اجرای مستقیم با ابزار llama.cpp
نرمافزارهای رابط مانند LM Studio
محیطهای تعاملی مانند Open WebUI
📌 مدل ۲۰B در عین سبک بودن، عملکردی نزدیک به مدلهایی مانند o3-mini دارد و برای سیستمهای ضعیفتر بسیار مناسب است.
---
🔧 نسخههایی با دقت ۴ بیت و ۱۶ بیت نیز آماده شدهاند.
نسخه ۴ بیتی حتی قابلیت فاینتیون روی کارتهای گرافیک با ۲۴ گیگابایت VRAM را دارد.
📄 مستندات کامل برای نصب و آموزش، توسط تیم Unsloth منتشر شده و گامبهگام مراحل راهاندازی را توضیح داده است.
منابع:
لینک 1
لینک 2
#مدل_زبانی #هوش_مصنوعی #GPT_OSS #Unsloth #GGUF #LLM
@rss_ai_ir
👍16🎉13👏11🥰9😁9❤7🔥6
مدلهای اپنسورس جدید GPT-OSS از OpenAI منتشر شدند 🧠⚙️
برای نخستینبار بعد از GPT-2، اوپنایآی وزنهای دو مدل بزرگ را در دسترس عموم قرار داده:
مدل های gpt-oss-20B و gpt-oss-120B. این مدلها بر پایهی Mixture-of-Experts (MoE) ساخته شدهاند، با طول کانتکست تا ۱۲۸k و قابلیت تنظیم سطح استدلال (low / medium / high). همچنین فرمت جدیدی به نام harmony برای پیامها معرفی شده است.
---
🔹 معماری و مشخصات فنی
❇️ مدل ۱۲۰B شامل ۱۲۸ کارشناس است که تنها ۴ کارشناس روی هر توکن فعال میشوند.
❇️ مدل ۲۰B شامل ۳۲ کارشناس است.
❇️ حجم چکپوینتها: حدود ۶۰.۸ GiB (۱۲۰B) و ۱۲.۸ GiB (۲۰B).
❇️ با فشردهسازی MXFP4، مدل ۱۲۰B روی GPU با ۸۰ گیگابایت حافظه جا میشود و مدل ۲۰B روی کارتهای ۱۶ گیگابایتی قابل اجراست.
❇️ طول کانتکست: تا \~۱۲۸k توکن.
---
🔹 ویژگیهای کلیدی
❇️ فرمت harmony با سه کانال خروجی:
❇️قابلیت analysis (تفکر و بخشی از tool calls)
❇️ commentary (فراخوانی ابزارها)
❇️final (نتیجه نهایی)
❇️ حالتهای استدلال (Reasoning modes): low / medium / high در پرامپت سیستم مشخص میشوند و بین سرعت، دقت و هزینه تعادل ایجاد میکنند.
❇️ توکنایزر جدید o200k\_harmony با دقت بهتر روی کاراکترهای غیرانگلیسی و اموجیها.
---
🔹 مثال برای تنظیم سطح استدلال
---
🔹 اهمیت در عمل
✅ ساخت دستیارهای محلی و آفلاین با دادههای حساس روی سختافزار در دسترس.
✅استانداردسازی پرامپت با harmony و سازگاری راحتتر با vLLM، Ollama و سایر رانتایمها.
✅ امکان انتخاب سطح استدلال برای کنترل بهتر روی سرعت ↔️ دقت ↔️ هزینه.
---
🔹 نکات تکمیلی
❌ زنجیرههای استدلال (CoT) بدون فیلتر نباید مستقیم به کاربر نمایش داده شوند.
❌ دیتاست آموزشی بیشتر انگلیسی است، برای کاربردهای فارسی یا روسی نیاز به فاینتیون یا تطبیق وجود دارد.
---
✅ جمعبندی: GPT-OSS جهش انقلابی نیست، بلکه نتیجهی مهندسی دقیق و استانداردسازی است که آستانهی ورود به دنیای مدلهای اپنسورس و قابلکنترل را پایینتر میآورد.
📌 مطالعه بیشتر: [Jay Alammar – Visual GPT-OSS](https://newsletter.languagemodels.co/p/the-illustrated-gpt-oss)
#هوش_مصنوعی #مدل_زبان #اپن_سورس #GPT_OSS
@rss_ai_ir
برای نخستینبار بعد از GPT-2، اوپنایآی وزنهای دو مدل بزرگ را در دسترس عموم قرار داده:
مدل های gpt-oss-20B و gpt-oss-120B. این مدلها بر پایهی Mixture-of-Experts (MoE) ساخته شدهاند، با طول کانتکست تا ۱۲۸k و قابلیت تنظیم سطح استدلال (low / medium / high). همچنین فرمت جدیدی به نام harmony برای پیامها معرفی شده است.
---
🔹 معماری و مشخصات فنی
❇️ مدل ۱۲۰B شامل ۱۲۸ کارشناس است که تنها ۴ کارشناس روی هر توکن فعال میشوند.
❇️ مدل ۲۰B شامل ۳۲ کارشناس است.
❇️ حجم چکپوینتها: حدود ۶۰.۸ GiB (۱۲۰B) و ۱۲.۸ GiB (۲۰B).
❇️ با فشردهسازی MXFP4، مدل ۱۲۰B روی GPU با ۸۰ گیگابایت حافظه جا میشود و مدل ۲۰B روی کارتهای ۱۶ گیگابایتی قابل اجراست.
❇️ طول کانتکست: تا \~۱۲۸k توکن.
---
🔹 ویژگیهای کلیدی
❇️ فرمت harmony با سه کانال خروجی:
❇️قابلیت analysis (تفکر و بخشی از tool calls)
❇️ commentary (فراخوانی ابزارها)
❇️final (نتیجه نهایی)
❇️ حالتهای استدلال (Reasoning modes): low / medium / high در پرامپت سیستم مشخص میشوند و بین سرعت، دقت و هزینه تعادل ایجاد میکنند.
❇️ توکنایزر جدید o200k\_harmony با دقت بهتر روی کاراکترهای غیرانگلیسی و اموجیها.
---
🔹 مثال برای تنظیم سطح استدلال
<|start|>system<|message|>
You are a helpful AI.
Reasoning: medium
Tools: web_search, python
<|end|>
---
🔹 اهمیت در عمل
✅ ساخت دستیارهای محلی و آفلاین با دادههای حساس روی سختافزار در دسترس.
✅استانداردسازی پرامپت با harmony و سازگاری راحتتر با vLLM، Ollama و سایر رانتایمها.
✅ امکان انتخاب سطح استدلال برای کنترل بهتر روی سرعت ↔️ دقت ↔️ هزینه.
---
🔹 نکات تکمیلی
❌ زنجیرههای استدلال (CoT) بدون فیلتر نباید مستقیم به کاربر نمایش داده شوند.
❌ دیتاست آموزشی بیشتر انگلیسی است، برای کاربردهای فارسی یا روسی نیاز به فاینتیون یا تطبیق وجود دارد.
---
✅ جمعبندی: GPT-OSS جهش انقلابی نیست، بلکه نتیجهی مهندسی دقیق و استانداردسازی است که آستانهی ورود به دنیای مدلهای اپنسورس و قابلکنترل را پایینتر میآورد.
📌 مطالعه بیشتر: [Jay Alammar – Visual GPT-OSS](https://newsletter.languagemodels.co/p/the-illustrated-gpt-oss)
#هوش_مصنوعی #مدل_زبان #اپن_سورس #GPT_OSS
@rss_ai_ir
👍1🔥1🙏1