📌 دیپسیک نسخه V3.1
♻️مدل جدید با ۶۸۵ میلیارد پارامتر بهعنوان یک مدل متنباز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژهای روی تواناییهای عاملمحور (agentic capabilities) دارد.
📊 نتایج بنچمارکها نشان میدهد:
♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخههای قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)
همچنین در حوزههای کاربردی دیگر:
SimpleQA → دقت 93.4%
Frames → امتیاز 83.7
xBench-DeepSearch → امتیاز 71.2
و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.
🚀 این نتایج نشان میدهد که DeepSeek-V3.1 یکی از قویترین مدلهای متنباز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیطهای پویا مثل ترمینال.
🔗 این حرکت، رقابت متنبازها با مدلهای کلوزد مثل GPT-5 و Claude را وارد مرحله تازهای میکند.
#AI #LLM #DeepSeek #opensource #benchmark
@rss_ai_ir
♻️مدل جدید با ۶۸۵ میلیارد پارامتر بهعنوان یک مدل متنباز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژهای روی تواناییهای عاملمحور (agentic capabilities) دارد.
📊 نتایج بنچمارکها نشان میدهد:
♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخههای قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)
همچنین در حوزههای کاربردی دیگر:
SimpleQA → دقت 93.4%
Frames → امتیاز 83.7
xBench-DeepSearch → امتیاز 71.2
و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.
🚀 این نتایج نشان میدهد که DeepSeek-V3.1 یکی از قویترین مدلهای متنباز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیطهای پویا مثل ترمینال.
🔗 این حرکت، رقابت متنبازها با مدلهای کلوزد مثل GPT-5 و Claude را وارد مرحله تازهای میکند.
#AI #LLM #DeepSeek #opensource #benchmark
@rss_ai_ir
🔥 درست یک سال گذشت و حالا xAI وزنهای Grok 2 را منتشر کرده است.
🔹 معماری همانند Grok 1 باقی مانده: مبتنی بر MoE (Mixture of Experts) با ۸ اکسپرت.
🔹 از نظر متریکها، عملکرد در سطح GPT-4o و Claude 3.5 Sonnet گزارش شده.
🔹 حجم چکپوینت حدود ۵۰۰ گیگابایت است و برای اجرا نیاز به ۸ کارت GPU با بیش از ۴۰ گیگابایت حافظه در هر کارت دارید.
🔹 لایسنس استفاده بسیار باز است: هم استفاده غیرتجاری رایگان و هم استفاده تجاری تا سقف ۱ میلیون دلار درآمد سالانه مجاز است.
📂 مدل در Hugging Face در دسترس قرار گرفته.
@rss_ai_ir
#Grok #xAI #هوش_مصنوعی #LLM #OpenSource
🔹 معماری همانند Grok 1 باقی مانده: مبتنی بر MoE (Mixture of Experts) با ۸ اکسپرت.
🔹 از نظر متریکها، عملکرد در سطح GPT-4o و Claude 3.5 Sonnet گزارش شده.
🔹 حجم چکپوینت حدود ۵۰۰ گیگابایت است و برای اجرا نیاز به ۸ کارت GPU با بیش از ۴۰ گیگابایت حافظه در هر کارت دارید.
🔹 لایسنس استفاده بسیار باز است: هم استفاده غیرتجاری رایگان و هم استفاده تجاری تا سقف ۱ میلیون دلار درآمد سالانه مجاز است.
📂 مدل در Hugging Face در دسترس قرار گرفته.
@rss_ai_ir
#Grok #xAI #هوش_مصنوعی #LLM #OpenSource
❤18🔥12😁10👍7🎉7👏1
🌍 معرفی MCP-Universe: بِنچمارک جدید Salesforce برای LLMها با سرورهای MCP
🔹 شرکت Salesforce یک بِنچمارک تازه منتشر کرده که توانایی مدلهای زبانی بزرگ (LLM) را در کار با MCP (Model Context Protocol) میسنجد. MCP که اواخر ۲۰۲۴ توسط Anthropic معرفی شد، پروتکلی است برای اتصال LLM به سرویسها و منابع دادهی بیرونی (مثل ابزارها و APIها).
---
🔎 ساختار بِنچمارک
♻️شامل ۱۱ MCP سرور با ۱۳۳ ابزار در ۶ حوزه مختلف
♻️در مجموع ۲۳۱ تسک واقعی طراحی شد، که هرکدام نیازمند یک یا چند تعامل MCP هستند
📌 نمونه حوزهها و زیرتسکها:
🗺 ناوبری روی نقشه: مسیریابی، ایستگاههای بهینه، جستجوی مکان و جستجو بر اساس ID
💻 مدیریت ریپازیتوری کد: تنظیم پروژه، ترکینگ مشکلات، اتوماسیون و ادغام کد
💰 تحلیل مالی: پورتفولیو، گزارشدهی، استراتژی معاملاتی، داراییهای نهادی، تحلیل سود سهام
🎨 طراحی سهبعدی (Blender): ساخت آبجکت، متریال، نورپردازی، رندر و سازماندهی صحنه
🌐 اتوماسیون مرورگر: رزرو بلیط، تحلیل ورزشی، ریسرچ آکادمیک، پلتفرم آنالیز و ناوبری نقشه
🔎 وبسرچ: شناسایی افراد، استخراج موجودیتها، متریک مَچینگ، استدلال پیچیده، فکت چک
---
⚙️ روش ارزیابی
♻️بررسی صحت فرمت پاسخ
♻️مقایسه ساده با جواب درست
♻️ارزیابی داینامیک (برای پرسشهایی مثل «امروز هوا چطوره» که پاسخ ثابت ندارند)
❗️ بخش بزرگی از تسکها بیش از ۵ تماس با MCP نیاز دارند، یعنی مدل باید توانایی کار با کانتکستهای طولانی و زنجیره تعاملات پیچیده را داشته باشد. همچنین تسکهای بیشازحد ساده یا مستقل از MCP فیلتر شدند.
---
✅ اهمیت این بِنچمارک در اینه که داره اولین بار مهارت واقعی LLMها در تعامل با ابزارهای بیرونی و حل مسائل دنیای واقعی رو میسنجه، نه فقط پرسش و پاسخ متنی.
@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #AI_Benchmark #صنعت
🔹 شرکت Salesforce یک بِنچمارک تازه منتشر کرده که توانایی مدلهای زبانی بزرگ (LLM) را در کار با MCP (Model Context Protocol) میسنجد. MCP که اواخر ۲۰۲۴ توسط Anthropic معرفی شد، پروتکلی است برای اتصال LLM به سرویسها و منابع دادهی بیرونی (مثل ابزارها و APIها).
---
🔎 ساختار بِنچمارک
♻️شامل ۱۱ MCP سرور با ۱۳۳ ابزار در ۶ حوزه مختلف
♻️در مجموع ۲۳۱ تسک واقعی طراحی شد، که هرکدام نیازمند یک یا چند تعامل MCP هستند
📌 نمونه حوزهها و زیرتسکها:
🗺 ناوبری روی نقشه: مسیریابی، ایستگاههای بهینه، جستجوی مکان و جستجو بر اساس ID
💻 مدیریت ریپازیتوری کد: تنظیم پروژه، ترکینگ مشکلات، اتوماسیون و ادغام کد
💰 تحلیل مالی: پورتفولیو، گزارشدهی، استراتژی معاملاتی، داراییهای نهادی، تحلیل سود سهام
🎨 طراحی سهبعدی (Blender): ساخت آبجکت، متریال، نورپردازی، رندر و سازماندهی صحنه
🌐 اتوماسیون مرورگر: رزرو بلیط، تحلیل ورزشی، ریسرچ آکادمیک، پلتفرم آنالیز و ناوبری نقشه
🔎 وبسرچ: شناسایی افراد، استخراج موجودیتها، متریک مَچینگ، استدلال پیچیده، فکت چک
---
⚙️ روش ارزیابی
♻️بررسی صحت فرمت پاسخ
♻️مقایسه ساده با جواب درست
♻️ارزیابی داینامیک (برای پرسشهایی مثل «امروز هوا چطوره» که پاسخ ثابت ندارند)
❗️ بخش بزرگی از تسکها بیش از ۵ تماس با MCP نیاز دارند، یعنی مدل باید توانایی کار با کانتکستهای طولانی و زنجیره تعاملات پیچیده را داشته باشد. همچنین تسکهای بیشازحد ساده یا مستقل از MCP فیلتر شدند.
---
✅ اهمیت این بِنچمارک در اینه که داره اولین بار مهارت واقعی LLMها در تعامل با ابزارهای بیرونی و حل مسائل دنیای واقعی رو میسنجه، نه فقط پرسش و پاسخ متنی.
@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #AI_Benchmark #صنعت
🔥13❤12👍12🎉8😁6
📊 نتایج بنچمارک MCP-Universe
تستهای تازهی MCP-Universe یک برندهی مشخص داشتند: GPT-5 با اختلاف زیاد در صدر قرار گرفت:
🏆 نرخ موفقیت (SR) → ۴۳.۷٪
🏆 امتیاز ارزیابان (AE) → ۶۰.۲٪
📈 در تمام حوزهها پیشتاز است، به جز Browser Automation که کمی بهتر از آن Grok-4 عمل کرده.
---
🔎 جزئیات بر اساس حوزهها:
✅تحلیل مالی (Financial Analysis) → رکورد GPT-5 با ۶۷.۵٪؛ فاصلهی چشمگیر از بقیه.
✅طراحی سهبعدی (3D Designing) → باز هم صدرنشین با ۵۲.۶٪.
✅مدیریت مخزن کد (Repository Management) → GPT-5 با ۳۰.۳٪ بهوضوح بالاتر از رقباست.
✅اتوماسیون مرورگر (Browser Automation) → اینجا شگفتی رقم خورد: Grok-4 با ۴۱.۰٪ جلوتر از GPT-5 (۳۵.۹٪).
---
🟢 در میان مدلهای متنباز (Open-Source):
♻️مدل GLM-4.5 بهترین عملکرد را داشت با ۲۴.۷٪ SR و ۴۱.۲٪ AE.
♻️مدل Kimi-K2 با وجود تبلیغات زیاد دربارهی آموزش ویژه برای MCP، تنها به ۱۹٪ SR رسید.
---
⚠️ نکتهی مهم: حتی رهبر جدول یعنی GPT-5 هم نتوانست از مرز ۵۰٪ کیفیت نهایی عبور کند. این نشان میدهد که تعامل LLMها با سرورهای MCP هنوز راه زیادی تا بلوغ کامل دارد، و این وظایف واقعاً پیچیده و چندلایه هستند.
@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #GPT5 #Benchmarks
تستهای تازهی MCP-Universe یک برندهی مشخص داشتند: GPT-5 با اختلاف زیاد در صدر قرار گرفت:
🏆 نرخ موفقیت (SR) → ۴۳.۷٪
🏆 امتیاز ارزیابان (AE) → ۶۰.۲٪
📈 در تمام حوزهها پیشتاز است، به جز Browser Automation که کمی بهتر از آن Grok-4 عمل کرده.
---
🔎 جزئیات بر اساس حوزهها:
✅تحلیل مالی (Financial Analysis) → رکورد GPT-5 با ۶۷.۵٪؛ فاصلهی چشمگیر از بقیه.
✅طراحی سهبعدی (3D Designing) → باز هم صدرنشین با ۵۲.۶٪.
✅مدیریت مخزن کد (Repository Management) → GPT-5 با ۳۰.۳٪ بهوضوح بالاتر از رقباست.
✅اتوماسیون مرورگر (Browser Automation) → اینجا شگفتی رقم خورد: Grok-4 با ۴۱.۰٪ جلوتر از GPT-5 (۳۵.۹٪).
---
🟢 در میان مدلهای متنباز (Open-Source):
♻️مدل GLM-4.5 بهترین عملکرد را داشت با ۲۴.۷٪ SR و ۴۱.۲٪ AE.
♻️مدل Kimi-K2 با وجود تبلیغات زیاد دربارهی آموزش ویژه برای MCP، تنها به ۱۹٪ SR رسید.
---
⚠️ نکتهی مهم: حتی رهبر جدول یعنی GPT-5 هم نتوانست از مرز ۵۰٪ کیفیت نهایی عبور کند. این نشان میدهد که تعامل LLMها با سرورهای MCP هنوز راه زیادی تا بلوغ کامل دارد، و این وظایف واقعاً پیچیده و چندلایه هستند.
@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #GPT5 #Benchmarks
❤15😁11🔥9👍8🎉8
This media is not supported in your browser
VIEW IN TELEGRAM
🆕 ابزار جدید Hugging Face: AI Sheets
⛔️جدولها حالا هوشمند شدند!
✳️مجموعه Hugging Face معرفی کرد AI Sheets، یک ابزار بدون کدنویسی برای ساخت و پردازش دادههای جدولی با کمک هوش مصنوعی:
🔹 ظاهر شبیه اکسل، اما به جای فرمولها از هزاران مدل استفاده میکند.
🔹 پشتیبانی از مدلهای OpenAI-API و مدلهای لوکال.
🔹 امکان افزودن ستون با پرامپتها، ویرایش دادهها به صورت دستی یا با لایک/دیسلایک.
🔹 قابل اجرا به صورت آنلاین یا لوکال (Docker / pnpm).
🔹 کاملاً اپنسورس (Apache-2.0) و قابل ادغام در هر پایپلاین.
🔹 مناسب برای کلاسیفیکیشن، تغییر دادهها، تولید دادههای مصنوعی و تست حس و vibe مدلها.
⚡️ نسخه آزمایشی در دسترس است.
#هوش_مصنوعی #بدون_کدنویسی #دیتاست #HuggingFace #LLM #AI
@rss_ai_ir
⛔️جدولها حالا هوشمند شدند!
✳️مجموعه Hugging Face معرفی کرد AI Sheets، یک ابزار بدون کدنویسی برای ساخت و پردازش دادههای جدولی با کمک هوش مصنوعی:
🔹 ظاهر شبیه اکسل، اما به جای فرمولها از هزاران مدل استفاده میکند.
🔹 پشتیبانی از مدلهای OpenAI-API و مدلهای لوکال.
🔹 امکان افزودن ستون با پرامپتها، ویرایش دادهها به صورت دستی یا با لایک/دیسلایک.
🔹 قابل اجرا به صورت آنلاین یا لوکال (Docker / pnpm).
🔹 کاملاً اپنسورس (Apache-2.0) و قابل ادغام در هر پایپلاین.
🔹 مناسب برای کلاسیفیکیشن، تغییر دادهها، تولید دادههای مصنوعی و تست حس و vibe مدلها.
⚡️ نسخه آزمایشی در دسترس است.
#هوش_مصنوعی #بدون_کدنویسی #دیتاست #HuggingFace #LLM #AI
@rss_ai_ir
❤4👍1👏1🙏1
🧠 مدل ThinkDial: کنترل باز و دقیق بر میزان استدلال در LLMها
پژوهشگران با معرفی ThinkDial اولین چارچوب بازمتن (Open-Recipe) برای کنترل سطح استدلال در مدلهای زبانی بزرگ (LLMها) را ارائه کردهاند. این چارچوب همان چیزی است که پیشتر در سیستمهای اختصاصی مثل GPT-OSS دیده بودیم، اما حالا به شکل باز در دسترس پژوهشگران قرار گرفته است.
🔑 ایده اصلی
به جای اینکه مدل همیشه با حداکثر توان استدلال کند (که هزینه محاسباتی بالایی دارد)، ThinkDial به شما اجازه میدهد بین حالتهای مختلف عملیات جابهجا شوید:
✳️حالت Medium: کاهش ۵۰٪ تعداد توکنها، با کمتر از ۱۰٪ افت کارایی
✳️حالت Low: کاهش ۷۵٪ توکنها، با کمتر از ۱۵٪ افت کارایی
✳️این یعنی شما میتوانید سطح استدلال را بر اساس نیاز پروژه (مثلاً چت سبک، تحلیل سریع یا پژوهش دقیق) تنظیم کنید.
⚡ نوآوریها
1. Budget-Mode Supervised Fine-tuning → تنظیم دقیق مدل برای سطوح مختلف مصرف محاسباتی.
2. Budget-Aware Reinforcement Learning → یادگیری تقویتی دومرحلهای برای هماهنگی دقت و هزینه.
3. Leak Penalty → مکانیزمی که مانع از آن میشود مدل استدلال را به بخش نهایی پاسخ منتقل کند (یعنی واقعاً تعداد توکنهای استدلال کاهش یابد).
📊 مزیتها برای صنعت
♻️کاهش هزینه اجرای مدلها در دیتاسنترها.
♻️امکان استقرار مدل روی دستگاههای با منابع محدود.
♻️انعطافپذیری بالا برای کاربردهای مختلف: از دستیارهای گفتوگویی سبک گرفته تا تحلیلهای پیچیده مالی یا علمی.
📄 مقاله: arXiv
🖥️ مدلها و کد: HuggingFace
#هوش_مصنوعی #LLM #بهینهسازی #استدلال_ماشین #ThinkDial
@rss_ai_ir
پژوهشگران با معرفی ThinkDial اولین چارچوب بازمتن (Open-Recipe) برای کنترل سطح استدلال در مدلهای زبانی بزرگ (LLMها) را ارائه کردهاند. این چارچوب همان چیزی است که پیشتر در سیستمهای اختصاصی مثل GPT-OSS دیده بودیم، اما حالا به شکل باز در دسترس پژوهشگران قرار گرفته است.
🔑 ایده اصلی
به جای اینکه مدل همیشه با حداکثر توان استدلال کند (که هزینه محاسباتی بالایی دارد)، ThinkDial به شما اجازه میدهد بین حالتهای مختلف عملیات جابهجا شوید:
✳️حالت Medium: کاهش ۵۰٪ تعداد توکنها، با کمتر از ۱۰٪ افت کارایی
✳️حالت Low: کاهش ۷۵٪ توکنها، با کمتر از ۱۵٪ افت کارایی
✳️این یعنی شما میتوانید سطح استدلال را بر اساس نیاز پروژه (مثلاً چت سبک، تحلیل سریع یا پژوهش دقیق) تنظیم کنید.
⚡ نوآوریها
1. Budget-Mode Supervised Fine-tuning → تنظیم دقیق مدل برای سطوح مختلف مصرف محاسباتی.
2. Budget-Aware Reinforcement Learning → یادگیری تقویتی دومرحلهای برای هماهنگی دقت و هزینه.
3. Leak Penalty → مکانیزمی که مانع از آن میشود مدل استدلال را به بخش نهایی پاسخ منتقل کند (یعنی واقعاً تعداد توکنهای استدلال کاهش یابد).
📊 مزیتها برای صنعت
♻️کاهش هزینه اجرای مدلها در دیتاسنترها.
♻️امکان استقرار مدل روی دستگاههای با منابع محدود.
♻️انعطافپذیری بالا برای کاربردهای مختلف: از دستیارهای گفتوگویی سبک گرفته تا تحلیلهای پیچیده مالی یا علمی.
📄 مقاله: arXiv
🖥️ مدلها و کد: HuggingFace
#هوش_مصنوعی #LLM #بهینهسازی #استدلال_ماشین #ThinkDial
@rss_ai_ir
👍1🔥1👏1