VIRSUN

📌 دیپ‌سیک نسخه V3.1

♻️مدل جدید با ۶۸۵ میلیارد پارامتر به‌عنوان یک مدل متن‌باز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژه‌ای روی توانایی‌های عامل‌محور (agentic capabilities) دارد.

📊 نتایج بنچمارک‌ها نشان می‌دهد:

♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخه‌های قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)

همچنین در حوزه‌های کاربردی دیگر:

SimpleQA → دقت 93.4%

Frames → امتیاز 83.7

xBench-DeepSearch → امتیاز 71.2

و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.

🚀 این نتایج نشان می‌دهد که DeepSeek-V3.1 یکی از قوی‌ترین مدل‌های متن‌باز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیط‌های پویا مثل ترمینال.

🔗 این حرکت، رقابت متن‌بازها با مدل‌های کلوزد مثل GPT-5 و Claude را وارد مرحله تازه‌ای می‌کند.

#AI #LLM #DeepSeek #opensource #benchmark

@rss_ai_ir

786 views04:44

VIRSUN

🔥 درست یک سال گذشت و حالا xAI وزن‌های Grok 2 را منتشر کرده است.

🔹 معماری همانند Grok 1 باقی مانده: مبتنی بر MoE (Mixture of Experts) با ۸ اکسپرت.
🔹 از نظر متریک‌ها، عملکرد در سطح GPT-4o و Claude 3.5 Sonnet گزارش شده.
🔹 حجم چک‌پوینت حدود ۵۰۰ گیگابایت است و برای اجرا نیاز به ۸ کارت GPU با بیش از ۴۰ گیگابایت حافظه در هر کارت دارید.
🔹 لایسنس استفاده بسیار باز است: هم استفاده غیرتجاری رایگان و هم استفاده تجاری تا سقف ۱ میلیون دلار درآمد سالانه مجاز است.

📂 مدل در Hugging Face در دسترس قرار گرفته.

@rss_ai_ir
#Grok #xAI #هوش_مصنوعی #LLM #OpenSource

❤18🔥12😁10👍7🎉7👏1

913 views08:45

VIRSUN

🌍 معرفی MCP-Universe: بِنچمارک جدید Salesforce برای LLMها با سرورهای MCP

🔹 شرکت Salesforce یک بِنچمارک تازه منتشر کرده که توانایی مدل‌های زبانی بزرگ (LLM) را در کار با MCP (Model Context Protocol) می‌سنجد. MCP که اواخر ۲۰۲۴ توسط Anthropic معرفی شد، پروتکلی است برای اتصال LLM به سرویس‌ها و منابع داده‌ی بیرونی (مثل ابزارها و APIها).

---

🔎 ساختار بِنچمارک

♻️شامل ۱۱ MCP سرور با ۱۳۳ ابزار در ۶ حوزه مختلف
♻️در مجموع ۲۳۱ تسک واقعی طراحی شد، که هرکدام نیازمند یک یا چند تعامل MCP هستند

📌 نمونه حوزه‌ها و زیرتسک‌ها:

🗺 ناوبری روی نقشه: مسیریابی، ایستگاه‌های بهینه، جستجوی مکان و جستجو بر اساس ID

💻 مدیریت ریپازیتوری کد: تنظیم پروژه، ترکینگ مشکلات، اتوماسیون و ادغام کد

💰 تحلیل مالی: پورتفولیو، گزارش‌دهی، استراتژی معاملاتی، دارایی‌های نهادی، تحلیل سود سهام

🎨 طراحی سه‌بعدی (Blender): ساخت آبجکت، متریال، نورپردازی، رندر و سازمان‌دهی صحنه

🌐 اتوماسیون مرورگر: رزرو بلیط، تحلیل ورزشی، ریسرچ آکادمیک، پلتفرم آنالیز و ناوبری نقشه

🔎 وب‌سرچ: شناسایی افراد، استخراج موجودیت‌ها، متریک مَچینگ، استدلال پیچیده، فکت چک

---

⚙️ روش ارزیابی

♻️بررسی صحت فرمت پاسخ
♻️مقایسه ساده با جواب درست
♻️ارزیابی داینامیک (برای پرسش‌هایی مثل «امروز هوا چطوره» که پاسخ ثابت ندارند)

❗️ بخش بزرگی از تسک‌ها بیش از ۵ تماس با MCP نیاز دارند، یعنی مدل باید توانایی کار با کانتکست‌های طولانی و زنجیره تعاملات پیچیده را داشته باشد. همچنین تسک‌های بیش‌ازحد ساده یا مستقل از MCP فیلتر شدند.

---

✅ اهمیت این بِنچمارک در اینه که داره اولین بار مهارت واقعی LLMها در تعامل با ابزارهای بیرونی و حل مسائل دنیای واقعی رو می‌سنجه، نه فقط پرسش و پاسخ متنی.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #AI_Benchmark #صنعت

🔥13❤12👍12🎉8😁6

254 views04:47

VIRSUN

📊 نتایج بنچمارک MCP-Universe

تست‌های تازه‌ی MCP-Universe یک برنده‌ی مشخص داشتند: GPT-5 با اختلاف زیاد در صدر قرار گرفت:

🏆 نرخ موفقیت (SR) → ۴۳.۷٪

🏆 امتیاز ارزیابان (AE) → ۶۰.۲٪

📈 در تمام حوزه‌ها پیشتاز است، به جز Browser Automation که کمی بهتر از آن Grok-4 عمل کرده.

---

🔎 جزئیات بر اساس حوزه‌ها:

✅تحلیل مالی (Financial Analysis) → رکورد GPT-5 با ۶۷.۵٪؛ فاصله‌ی چشمگیر از بقیه.

✅طراحی سه‌بعدی (3D Designing) → باز هم صدرنشین با ۵۲.۶٪.

✅مدیریت مخزن کد (Repository Management) → GPT-5 با ۳۰.۳٪ به‌وضوح بالاتر از رقباست.

✅اتوماسیون مرورگر (Browser Automation) → این‌جا شگفتی رقم خورد: Grok-4 با ۴۱.۰٪ جلوتر از GPT-5 (۳۵.۹٪).

---

🟢 در میان مدل‌های متن‌باز (Open-Source):

♻️مدل GLM-4.5 بهترین عملکرد را داشت با ۲۴.۷٪ SR و ۴۱.۲٪ AE.

♻️مدل Kimi-K2 با وجود تبلیغات زیاد درباره‌ی آموزش ویژه برای MCP، تنها به ۱۹٪ SR رسید.

---

⚠️ نکته‌ی مهم: حتی رهبر جدول یعنی GPT-5 هم نتوانست از مرز ۵۰٪ کیفیت نهایی عبور کند. این نشان می‌دهد که تعامل LLMها با سرورهای MCP هنوز راه زیادی تا بلوغ کامل دارد، و این وظایف واقعاً پیچیده و چندلایه هستند.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #GPT5 #Benchmarks

❤15😁11🔥9👍8🎉8

224 views04:47

VIRSUN

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

🆕 ابزار جدید Hugging Face: AI Sheets

⛔️جدول‌ها حالا هوشمند شدند!

✳️مجموعه Hugging Face معرفی کرد AI Sheets، یک ابزار بدون کدنویسی برای ساخت و پردازش داده‌های جدولی با کمک هوش مصنوعی:

🔹 ظاهر شبیه اکسل، اما به جای فرمول‌ها از هزاران مدل استفاده می‌کند.
🔹 پشتیبانی از مدل‌های OpenAI-API و مدل‌های لوکال.
🔹 امکان افزودن ستون با پرامپت‌ها، ویرایش داده‌ها به صورت دستی یا با لایک/دیسلایک.
🔹 قابل اجرا به صورت آنلاین یا لوکال (Docker / pnpm).
🔹 کاملاً اپن‌سورس (Apache-2.0) و قابل ادغام در هر پایپ‌لاین.
🔹 مناسب برای کلاسیفیکیشن، تغییر داده‌ها، تولید داده‌های مصنوعی و تست حس و vibe مدل‌ها.

⚡️ نسخه آزمایشی در دسترس است.

#هوش_مصنوعی #بدون_کدنویسی #دیتاست #HuggingFace #LLM #AI

@rss_ai_ir

❤4👍1👏1🙏1

791 viewsedited 14:56

VIRSUN

🧠 مدل ThinkDial: کنترل باز و دقیق بر میزان استدلال در LLMها

پژوهشگران با معرفی ThinkDial اولین چارچوب بازمتن (Open-Recipe) برای کنترل سطح استدلال در مدل‌های زبانی بزرگ (LLMها) را ارائه کرده‌اند. این چارچوب همان چیزی است که پیش‌تر در سیستم‌های اختصاصی مثل GPT-OSS دیده بودیم، اما حالا به شکل باز در دسترس پژوهشگران قرار گرفته است.

🔑 ایده اصلی
به جای اینکه مدل همیشه با حداکثر توان استدلال کند (که هزینه محاسباتی بالایی دارد)، ThinkDial به شما اجازه می‌دهد بین حالت‌های مختلف عملیات جابه‌جا شوید:
✳️حالت Medium: کاهش ۵۰٪ تعداد توکن‌ها، با کمتر از ۱۰٪ افت کارایی
✳️حالت Low: کاهش ۷۵٪ توکن‌ها، با کمتر از ۱۵٪ افت کارایی
✳️این یعنی شما می‌توانید سطح استدلال را بر اساس نیاز پروژه (مثلاً چت سبک، تحلیل سریع یا پژوهش دقیق) تنظیم کنید.

⚡ نوآوری‌ها

1. Budget-Mode Supervised Fine-tuning → تنظیم دقیق مدل برای سطوح مختلف مصرف محاسباتی.

2. Budget-Aware Reinforcement Learning → یادگیری تقویتی دو‌مرحله‌ای برای هماهنگی دقت و هزینه.

3. Leak Penalty → مکانیزمی که مانع از آن می‌شود مدل استدلال را به بخش نهایی پاسخ منتقل کند (یعنی واقعاً تعداد توکن‌های استدلال کاهش یابد).

📊 مزیت‌ها برای صنعت

♻️کاهش هزینه اجرای مدل‌ها در دیتاسنترها.
♻️امکان استقرار مدل روی دستگاه‌های با منابع محدود.
♻️انعطاف‌پذیری بالا برای کاربردهای مختلف: از دستیارهای گفت‌وگویی سبک گرفته تا تحلیل‌های پیچیده مالی یا علمی.

📄 مقاله: arXiv
🖥️ مدل‌ها و کد: HuggingFace

#هوش_مصنوعی #LLM #بهینه‌سازی #استدلال_ماشین #ThinkDial
@rss_ai_ir

👍1🔥1👏1

176 views04:11

About

Blog

Apps

Platform