VIRSUN

⚡️شتاب دهند Agent Lightning؛ شتاب‌دهنده‌ی جدید مایکروسافت برای آموزش ایجنت‌های LLM

دیگر نیازی به بازنویسی ایجنت نیست! با فریم‌ورک **Agent Lightning**، می‌توانید ایجنت‌های مبتنی بر زبان را بدون تغییر در کد، به کمک **یادگیری تقویتی (RL) آموزش و بهینه‌سازی کنید.

🔧 ویژگی‌های کلیدی:
▪️ بدون نیاز به تغییر در کد ایجنت
▪️ پشتیبانی از فریم‌ورک‌هایی مانند LangChain، AutoGen، OpenAI Agents SDK، Semantic Kernel و...
▪️ اتصال ایجنت با استفاده از sidecar و جمع‌آوری داده‌های رفتاری
▪️ ارزیابی عملکرد ایجنت در مراحل مختلف (state، action، reward)
▪️ امکان بهینه‌سازی رفتار ایجنت حتی بر اساس سیگنال‌های میانی، نه فقط نتیجه نهایی
▪️ قابلیت اتصال به پایپلاین‌های موجود در پروژه‌های صنعتی یا پژوهشی

🎯 مناسب برای پروژه‌های تولید کد، پرس‌وجوی SQL، اتوماسیون وظایف پیچیده و حتی Multi-Agent Systems

📄 مقاله: (https://arxiv.org/abs/2508.03680)
🔗 گیت‌هاب:(https://github.com/microsoft/agent-lightning)
🌐 وب‌سایت: (https://www.microsoft.com/en-us/research/project/agent-lightning)

#هوش_مصنوعی #LLM #Agent #یادگیری_تقویتی #Microsoft #LangChain #AutoGen #MLOps
@rss_ai_ir 🚀

❤16🔥16👏16👍15🥰13😁13🎉13🙏1

3.12K viewsedited 10:09

VIRSUN

🧠 مدل GPT-5 حتی در ورودی‌های فوق‌طولانی هم دقت بالایی را حفظ می‌کند!
@rss_ai_ir

📊 نمودار بالا عملکرد مدل‌های مختلف را در مواجهه با ورودی‌های بسیار بلند (تا ۲۵۶ هزار توکن) مقایسه می‌کند. این تست با استفاده از معیار MRCR و وظیفه‌ی “2 needle” اجرا شده که بررسی می‌کند آیا مدل می‌تواند اطلاعات کلیدی را از دل متن بسیار بلند پیدا کند یا نه.

🔝 نتیجه کاملاً روشن است:
مدل GPT-5 با اختلاف قابل توجه، در تمام طول ورودی‌ها بالاترین نرخ تطابق (mean match ratio) را دارد و دقت آن حتی در ورودی ۲۵۶k همچنان نزدیک به ۹۰٪ باقی می‌ماند.

📉 در مقابل:

نسخه‌های Nano و Mini از GPT-4.1 با افزایش طول ورودی به‌شدت افت عملکرد دارند (تا زیر ۴۰٪)

مدل‌های OpenAI O3 و O4-mini هم با وجود شروع قوی، از ۶۴k به بعد دچار افت دقت می‌شوند

🎯 این یعنی GPT-5 نه تنها برای مکالمات یا تحلیل‌های کوتاه، بلکه برای کاربردهای پیچیده با متن‌های بسیار طولانی (مثل اسناد حقوقی، مقالات علمی، یا پایگاه‌ داده‌های متنی) انتخابی بی‌رقیب است.

#GPT5 #هوش_مصنوعی #OpenAI #طول_ورودی_بلند #LLM #بازیابی_اطلاعات #MemoryDepth #متن_طولانی #AItools #مدل_زبانی_پیشرفته

@rss_ai_ir

👍2🔥1👏1

1.33K views18:01

VIRSUN

🚀 پیشرفت گوگل: کاهش ۱۰هزار برابری نیاز به داده برای فاین‌تیون LLM
@rss_ai_ir

🔍 گوگل روشی مقیاس‌پذیر در Active Learning توسعه داده که حجم داده برچسب‌خورده موردنیاز برای آموزش مدل‌های زبانی بزرگ (LLM) را در وظایف پیچیده – مثل مـدراتـیـون محتوای تبلیغاتی – تا ده‌ها هزار برابر کاهش می‌دهد.

---

🛠 مراحل کار

1. مدل اولیه (LLM-0) روی کل داده پیش‌بینی و برچسب‌گذاری خودکار انجام می‌دهد.
2. داده‌ها خوشه‌بندی می‌شوند تا سخت‌ترین و مبهم‌ترین نمونه‌ها شناسایی شود.
3. تنها نمونه‌های متنوع و با بیشترین ارزش یادگیری انتخاب می‌شوند.
4. این نمونه‌ها توسط کارشناسان انسانی برچسب‌گذاری می‌شوند.
5. فرآیند آموزش → انتخاب نمونه‌های دشوار → برچسب‌گذاری → آموزش مجدد چند بار تکرار می‌شود.

---

📊 نتایج کلیدی

* کاهش از ۱۰۰هزار نمونه برچسب‌خورده به کمتر از ۵۰۰ نمونه با حفظ یا بهبود کیفیت.
* بهبود معیار Cohen’s Kappa بین ۵۵ تا ۶۵ درصد.
* در مدل‌های بزرگ عملیاتی: صرفه‌جویی ۳ تا ۴ مرتبه‌ای در داده با کیفیت برابر یا بهتر.

---

📌معیار Cohen’s Kappa چیست؟
معیاری برای سنجش میزان توافق بین دو ارزیاب (مثلاً کارشناس و مدل) با حذف اثر توافق تصادفی:

* ۰.۰ → بدون توافق
* ۰.۴۱–۰.۶۰ → توافق متوسط
* ۰.۶۱–۰.۸۰ → توافق قابل توجه
* ۰.۸۱–۱.۰۰ → توافق تقریباً کامل

مزیت نسبت به Accuracy: مناسب‌تر برای داده‌های با توزیع نامتوازن کلاس‌ها.

---

💡 مزیت‌های روش گوگل

* برچسب‌گذاری فقط روی نمونه‌های مهم
* مقیاس‌پذیر برای دیتاست‌های حجیم (صدها میلیارد نمونه)
* کاهش شدید هزینه و زمان برچسب‌گذاری
* انطباق سریع برای حوزه‌هایی با تغییرات مداوم قوانین (مانند تبلیغات، امنیت، محتوای کاربری)

---

📥 مطالعه کامل در بلاگ گوگل:
[https://research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/]

#هوش_مصنوعی #ActiveLearning #گوگل #LLM #یادگیری_ماشین #DataEfficiency
@rss_ai_ir

🔥23❤21🥰21😁20🎉20👏17👍12🙏1

802 views10:33

VIRSUN

⚡️ مدل‌های زبانی GPT-OSS با فرمت GGUF توسط تیم Unsloth بهینه‌سازی و منتشر شدند
@rss_ai_ir

تیم توسعه‌دهنده Unsloth دو نسخه از مدل‌های GPT-OSS با ۲۰ و ۱۲۰ میلیارد پارامتر را به فرمت GGUF تبدیل کرده و با رفع برخی ایرادات، کیفیت استنتاج (Inference) آن‌ها را به‌طور قابل توجهی افزایش داده‌اند.

---

📌 پیکربندی پیشنهادی برای اجرا:

🔹 مدل با ۲۰ میلیارد پارامتر در حالت دقت کامل، تنها به ۱۴ گیگابایت حافظه رم نیاز دارد و با سرعتی بیش از ۱۰ توکن بر ثانیه اجرا می‌شود.

🔹 مدل ۱۲۰ میلیاردی نیز با حدود ۶۴ گیگ رم، خروجی بالای ۴۰ توکن بر ثانیه ارائه می‌دهد.

🔸 حتی در سیستم‌هایی با ۶ گیگ رم و بدون GPU هم امکان اجرا وجود دارد، اما سرعت استنتاج پایین‌تر خواهد بود.

---

📈 در صورت استفاده از کارت گرافیک، عملکرد مدل‌ها به‌مراتب بهتر خواهد بود.
برخی تست‌ها با GPU قدرتمند H100 نشان داده‌اند که سرعت خروجی به بیش از ۱۴۰ توکن بر ثانیه می‌رسد که حتی از ChatGPT نیز سریع‌تر است.

---

🧠 روش‌های قابل استفاده برای اجرا:

اجرای مستقیم با ابزار llama.cpp

نرم‌افزارهای رابط مانند LM Studio

محیط‌های تعاملی مانند Open WebUI

📌 مدل ۲۰B در عین سبک بودن، عملکردی نزدیک به مدل‌هایی مانند o3-mini دارد و برای سیستم‌های ضعیف‌تر بسیار مناسب است.

---

🔧 نسخه‌هایی با دقت ۴ بیت و ۱۶ بیت نیز آماده شده‌اند.
نسخه ۴ بیتی حتی قابلیت فاین‌تیون روی کارت‌های گرافیک با ۲۴ گیگابایت VRAM را دارد.

📄 مستندات کامل برای نصب و آموزش، توسط تیم Unsloth منتشر شده و گام‌به‌گام مراحل راه‌اندازی را توضیح داده است.

منابع:
لینک 1

لینک 2

#مدل_زبانی #هوش_مصنوعی #GPT_OSS #Unsloth #GGUF #LLM

@rss_ai_ir

👍16🎉13👏11🥰9😁9❤7🔥6

807 views11:45

VIRSUN

📊🤖 بهبود دقت GPT-5 با پرامپت کاستوم جدید

تست‌ها روی مدل gpt-5-nano با تلاش medium و بنچمارک MMLU-PRO نشان دادند که استفاده از نسخه سوم پرامپت کاستوم باعث افزایش دقت از 68.73٪ به 70.20٪ شده است (+1.47٪).

📌 ویژگی‌های نسخه جدید

♻️استفاده از تکنیک «ساخت روبریک» در حین فکر کردن مدل
♻️ارزیابی داخلی پاسخ‌ها (۰ تا ۱۰۰) و بازنویسی در صورت کیفیت پایین
♻️حذف ترفندهای قدیمی بی‌اثر و بهبود فرمت خروجی
♻️بدون تحمیل جدول یا پیشنهاد اضافی مگر درخواستی باشد

📈 در نمودار دوم می‌بینید که تقریباً در تمام حوزه‌ها (مهندسی، علوم کامپیوتر، شیمی، بیزینس، زیست، فیزیک و …) عملکرد کمی بهتر بوده است.

📥 پرامپت و توضیحات کامل:
github.com/DenisSergeevitch/chatgpt-custom-instructions

@rss_ai_ir 🚀 | #هوش_مصنوعی #پرامپت #GPT5 #LLM #پردازش_زبان

🔥18❤12😁11👍9🥰7🎉6👏5

2.97K views18:47

VIRSUN

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 فاین‌تیونینگ کارآمد مدل‌های زبانی با PEFT

✳️در پروژه‌های هوش مصنوعی، مخصوصاً مدل‌های زبانی بزرگ (LLM)، فاین‌تیونینگ کامل تمام وزن‌ها (Full Fine-Tuning) بسیار پرهزینه و نیازمند GPUهای قدرتمند است. تکنیک PEFT (Parameter-Efficient Fine-Tuning) با هدف کاهش این هزینه‌ها معرفی شده و امروز یکی از رایج‌ترین رویکردها برای سفارشی‌سازی مدل‌ها در حوزه تخصصی است.

🔍 ایده اصلی PEFT
به‌جای تغییر دادن همه پارامترهای مدل (که ممکن است میلیاردها وزن باشد)، فقط یک زیرمجموعه کوچک از پارامترها یا لایه‌های اضافه شده (مثل LoRA – Low-Rank Adaptation) آموزش داده می‌شود. وزن‌های اصلی مدل پیش‌آموزش‌دیده (Pretrained Weights) ثابت می‌مانند و تنها ماتریس‌های کم‌رتبه‌ی افزوده شده به‌روزرسانی می‌شوند.

⚙️ مهم‌ترین روش‌های PEFT
LoRA (Low-Rank Adaptation) 🟦
تزریق دو ماتریس کم‌رتبه (A و B) به وزن‌های مدل
به‌روزرسانی فقط این ماتریس‌ها
کاهش چشمگیر تعداد پارامترهای قابل‌آموزش (تا 1000 برابر کمتر از Full Fine-Tuning)

Prefix-Tuning 🟧
اضافه کردن یک توالی از "توکن‌های پیشوند" قابل‌آموزش به ورودی هر لایه ترنسفورمر
مناسب برای وظایف تولید متن (NLG) و دیالوگ

Prompt-Tuning 🟨
آموزش چند embedding به‌عنوان پرامپت ثابت برای هدایت مدل مناسب برای سناریوهایی که ورودی همیشه ساختار مشخصی دارد

Adapters 🟩
اضافه کردن ماژول‌های کوچک بین لایه‌های ترنسفورمر مدل اصلی ثابت می‌ماند و فقط آداپترها آموزش می‌بینند

📊 مزایا برای پروژه‌های صنعتی
💾 نیاز کمتر به حافظه GPU (مثلاً 8GB هم کافی است)
⏱️ سرعت بالاتر آموزش و استقرار
🔄 قابلیت اشتراک و ترکیب ماژول‌های فاین‌تیون (Adapter Fusion)
📦 امکان استفاده روی مدل‌های خیلی بزرگ بدون منابع ابری گران

💡 کاربردهای تخصصی
♻️سفارشی‌سازی GPT یا LLaMA برای تحلیل متون حقوقی، پزشکی یا فنی
♻️آموزش مدل‌های چندزبانه روی داده‌های سازمانی محدود
♻️ایجاد نسخه‌های سبک‌تر و بهینه برای اجرا روی لبه (Edge AI)

📌 جمع‌بندی
روشPEFT با تمرکز روی تغییرات کم‌هزینه و ماژولار، فاین‌تیونینگ را برای همه قابل‌دسترس کرده است. به‌جای روزها آموزش روی چندین GPU، می‌توان با منابع محدود، مدل‌های قدرتمند را دقیقاً مطابق نیاز حوزه تخصصی خود تنظیم کرد.

@rss_ai_ir 🤖

| #هوش_مصنوعی #LLM #PEFT #LoRA #پردازش_زبان_طبیعی

😁9🎉8🔥7👏6❤3🥰3👍1

824 views05:49

VIRSUN

📊 نتایج مقایسه مدل‌های هوش مصنوعی در معیار AlgoTune نشان می‌دهد که مدل‌های کوچک‌تر مانند o4-mini و DeepSeek R1 با بودجه بسیار کمتر، شتاب بالایی ایجاد می‌کنند.

🔹 نکات کلیدی:

✳️مدل o4-mini با امتیاز 1.71x و R1 با 1.69x در صدر قرار دارند.

✳️حتی با بودجه ۰.۱ دلار، این دو مدل به امتیازی بهتر از Claude Opus در بودجه کامل ۱ دلار می‌رسند.

✳️بیشترین رشد عملکرد مدل‌های کوچک قبل از ۰.۵ دلار اتفاق می‌افتد و پس از آن شیب افزایش کاهش می‌یابد.

✳️رویکرد budget-constrained benchmarking هرچند در کاربرد عملی محدودیت‌هایی دارد، اما برای تحقیقات دانشگاهی و پروژه‌های دانشجویی می‌تواند بسیار ارزشمند باشد.

#هوش_مصنوعی #LLM #بنچمارک #بهینه‌سازی_الگوریتم
@rss_ai_ir 🚀

🔥10😁6❤4👍4🎉2

194 views03:13

VIRSUN

مدیر سابق گوگل David Petrou که به خاطر کار روی Google Goggles و Google Glass شناخته می‌شود، استارتاپی به نام Continua راه‌اندازی کرده است 💬🤖 — یک عامل هوش مصنوعی که می‌تواند به گروه‌های چت در SMS، iMessage و Discord بپیوندد تا در هماهنگی برنامه‌ها، مدیریت وظایف و کاهش شلوغی گفتگو کمک کند.

---

✨ جزئیات کلیدی

♻️جذب سرمایه ۸ میلیون دلاری در دور Seed به رهبری GV با مشارکت Bessemer Venture Partners و سرمایه‌گذاران فرشته.

♻️قابلیت‌هایی مانند تنظیم یادآور، برگزاری نظرسنجی، ایجاد اسناد و پاسخ‌گویی به سوالات در پیام خصوصی (DM).

♻️آموزش ویژه برای مدیریت مکالمات چندنفره با هوش اجتماعی.

♻️امکان افزودن مستقیم Continua به گروه‌ها و تعیین میزان مشارکت آن توسط کاربر.

---

🎯 هدف این پروژه، تبدیل مدل‌های زبانی بزرگ (LLM) به بخشی طبیعی و بدون مزاحمت از هماهنگی روزمره در گروه‌هاست.

#هوش_مصنوعی 🤖 #استارتاپ 🚀 #چت_بات 💬 #مدیریت_وظایف 📅 #LLM

🎉9😁7❤5🔥3👍2

826 viewsedited 10:13

VIRSUN

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

🩺 وقتی هوش مصنوعی از بسیاری از پزشکان بهتر عمل می‌کند

✅داریو آمودئی، مدیرعامل Anthropic، می‌گوید:

❌برخی از برندگان نوبل در زیست‌شناسی امروز از LLMها (مدل‌های زبانی بزرگ) مشاوره‌های بهتری نسبت به اکثر پزشکان دریافت می‌کنند.

🔹 او تأکید می‌کند که البته ۱٪ برتر پزشکان همچنان ارزش مراجعه حضوری دارند،
اما برای بقیه موارد، LLMها سریع‌تر، سازگارتر و دقیق‌تر عمل می‌کنند.

💡 چرا؟
زیرا بخش زیادی از کار پزشکی الگو‌یابی و ترکیب حقایق است، و این دقیقاً همان چیزی است که LLMها در آن می‌درخشند.

🌐 #هوش_مصنوعی #پزشکی_دیجیتال #LLM #AIHealthcare
🧠 @rss_ai_ir

❤8🎉7🔥6👍3😁1

206 viewsedited 03:21

VIRSUN

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

📌 نقشه راه برای تبدیل شدن به پرامپت انجینیر در سال ۲۰۲۵ 🧑🏻‍💻✨

برای متخصص شدن در حوزه Prompt Engineering باید مسیر زیر را طی کنید:

1️⃣ یادگیری مبانی اولیه پرامپت‌نویسی
2️⃣ آشنایی با مدل‌های زبانی (LLMs) و نحوه تنظیم آن‌ها
3️⃣ تمرین نوشتن پرامپت‌های کارآمد و بهینه
4️⃣ ساخت الگوهای پرامپت و درک معماری آن‌ها
5️⃣ تسلط بر تکنیک‌های پیشرفته در پرامپت‌نویسی
6️⃣ تجربه کار با مدل‌های چندوجهی (متنی–تصویری–صوتی)
7️⃣ تمرین مداوم برای تبدیل شدن به یک پرامپت‌نویس حرفه‌ای

🌐 آینده مشاغل مرتبط با هوش مصنوعی نیازمند مهارت در پرامپت‌نویسی است. کسی که این مهارت را دارد، نقش کلیدی در جهت‌دهی به مدل‌های هوش مصنوعی ایفا می‌کند.

#هوش_مصنوعی #PromptEngineering #AI #LLM #DeepLearning
@rss_ai_ir

👍8🔥6❤4🎉4😁1

800 viewsedited 05:26

VIRSUN

😎 حقیقت جالبی که خیلی از توسعه‌دهنده‌ها درک کرده‌اند اینه که کاربران عادی اهمیتی به «پرامپت‌سازی حرفه‌ای» نمی‌دهند.

📊 در تمام اپلیکیشن‌هایی که روی LLM ساخته شده‌اند، آنالیتیک‌ها نشان می‌دهد کاربر یک جمله ساده می‌نویسد و انتظار خروجی کامل دارد. به همین دلیل، توسعه‌دهندگان داخل خودِ اپ حجم زیادی از دستورالعمل‌ها و ساختارها را به‌صورت پیش‌فرض جاسازی می‌کنند تا همان درخواست ساده‌ی کاربر به یک پرامپت پیچیده و کاربردی تبدیل شود.

🧠 از طرف دیگر، مدل‌های «تفکری» (Thinking Models) اساساً نیازمند پرامپت‌های کلاسیک نیستند. این مدل‌ها خودشان جای خالی درخواستی کاربر را پر می‌کنند و بافت منطقی یا داده‌ای لازم را اضافه می‌کنند. تعداد کمی از افراد بلدند این نسل از مدل‌ها را درست پرامپت کنند، ولی واقعیت اینه که برای عموم کاربرها هم نیازی نیست.

✅ بله، مواقعی هست که یک پرامپت خیلی خاص و دقیق لازم می‌شود (مثلاً در یک تسک پژوهشی یا تخصصی)، اما این‌ها استثنا هستند. اگر تا حالا در چنین وضعیتی نبودید، اصلاً مهم نیست – می‌توانید بی‌خیال ماجرای «پرامپت پارسلتانگ» شوید.

✨ نتیجه: تنبل بودن در پرامپت‌نویسی نه تنها اشکال نداره، بلکه مسیر درست استفاده از LLM همین است. احترام به کسانی که راحت می‌نویسند و انتظار دارند AI خودش فکر کند! 🙌

@rss_ai_ir | #LLM #AI #Prompting

👍10🔥6🎉6❤5👏1😁1

800 viewsedited 04:10

VIRSUN

🧠 SSRL: Self-Search Reinforcement Learning

♻️مقاله‌ای تازه از Yanxu Chen و همکاران رویکردی نو به آموزش مدل‌های زبانی بزرگ (LLMs) معرفی کرده: یادگیری تقویتی با جستجوی درونی (Self-Search RL).
---

🔹 ایده اصلی
♻️به جای اینکه مدل برای یادگیری نیازمند اتصال به موتورهای جستجوی بیرونی باشه (که هزینه‌بر و کند است)، در محیطی شبیه‌سازی‌شده از خودش به عنوان عامل و محیط استفاده می‌کنه. مدل به‌صورت خودبازگشتی (autoregressive) هم کوئری جستجو تولید می‌کنه و هم پاسخ اطلاعاتی، و سپس با پاداش‌های مبتنی بر فرمت و نتیجه آموزش داده میشه.

---

🔹 هدف

♻️سنجش ظرفیت‌های جستجوی درونی (intrinsic search capabilities) در LLMها

♻️بررسی اینکه آیا آموزش در محیط «کاملاً شبیه‌سازی‌شده» می‌تونه به انتقال مؤثر در دنیای واقعی (sim-to-real transfer) منجر بشه یا نه.

---

🔹 نتایج کلیدی

♻️مدل Llama-3.1-8B-Instruct که با SSRL آموزش دید، در شش بنچمارک به میانگین ۴۳.۱٪ دقت رسید.
♻️این عملکرد از ZeroSearch (با ۴۱.۵٪) بهتر بود.
♻️در مقایسه با روش‌های وابسته به API، SSRL هزینه آموزش رو به‌شدت کاهش میده، چون نیازی به فراخوانی مداوم APIها نداره.

---

🔹 پیام برای متخصصان AI
♻️همچنین SSRL یک پارادایم کم‌هزینه و کارآمد برای آموزش عامل‌های جستجو فراهم می‌کنه.
♻️مدل‌ها در فاز آموزش کاملاً روی داده‌های شبیه‌سازی‌شده تمرین می‌کنن، و بعد می‌تونن در زمان استقرار واقعی با موتورهای جستجو به‌کار گرفته بشن. این یعنی ترکیب سرعت، کاهش هزینه و بهبود کارایی در توسعه نسل بعدی عامل‌های جستجوگر.

📌 بیشتر بخوانید:

arXiv

HuggingFace Papers

#هوش_مصنوعی #یادگیری_تقویتی #LLM #SSRL #جستجو
@rss_ai_ir

🔥7👍6🥰6👏6😁5❤4🎉3

1.7K viewsedited 14:30

VIRSUN

🆕 DeepSeek-V3.1 منتشر شد

مدل جدید فعلاً بدون اعلام رسمی بیرون اومده، اما وزن‌های نسخه base روی HuggingFace قرار گرفته‌اند. 📂

🔹 آنچه تا الان می‌دونیم:

♻️ظرفیت کانتکست افزایش پیدا کرده تا ۱۲۸هزار توکن
♻️دامنه‌ی دانش به‌روز شده تا جولای ۲۰۲۴
♻️معماری تغییر اساسی نداشته، اما گزارش شده که مدل به‌صورت هیبریدی طراحی شده

با وجود این تغییرات، به نظر می‌رسه این نسخه بیشتر یک آپدیت کوچک باشه تا یک جهش بزرگ. حالا باید منتظر بنچمارک‌ها و پست رسمی بلاگ بمونیم تا تصویر دقیق‌تری به دست بیاد 🤔

#هوش_مصنوعی #DeepSeek #LLM #مدل_زبانی
@rss_ai_ir

👍12😁12🔥9❤8🎉6🥰4👏2

866 viewsedited 16:04

VIRSUN

📌 عنوان:
چرا دراپ‌اوت فقط یک «خاموش‌کننده تصادفی» نیست؟ 🤔🔍

---

بیشتر متخصصان هوش مصنوعی، دراپ‌اوت را صرفاً روشی برای خاموش کردن تصادفی نرون‌ها می‌دانند، اما پشت این تکنیک ایده‌ای عمیق‌تر وجود دارد که آن را به یکی از مهم‌ترین روش‌های منظم‌سازی (Regularization) تبدیل کرده است.

💡 ایده اصلی
در مراحل آموزش، هر بار درصدی از نرون‌ها (مثلاً ۲۰ تا ۵۰٪) به طور تصادفی غیرفعال می‌شوند. این کار جلوی وابستگی بیش‌ازحد شبکه به مسیرهای خاص پردازش اطلاعات را می‌گیرد.

🌀 اثر پنهان
دراپ‌اوت در عمل شبیه ترکیب‌گیری مدل‌ها (Ensemble) عمل می‌کند. با هر بار غیرفعال شدن بخشی از نرون‌ها، یک زیرمدل جدید ساخته می‌شود و در نهایت، خروجی مدل مانند میانگین‌گیری از هزاران زیرمدل مستقل خواهد بود.

🚀 چرا اهمیت دارد؟
- کاهش شدید بیش‌برازش (Overfitting) بدون نیاز به داده اضافه
- ایجاد تعداد زیادی مدل کوچک در دل یک مدل اصلی بدون هزینه‌ی جداگانه
- سازگاری فوق‌العاده با معماری‌های پیشرفته مثل ترنسفورمرها

⚙️ نکته تخصصی
در هنگام تست، دراپ‌اوت غیرفعال است اما وزن‌ها با توجه به احتمال غیرفعال‌سازی، مقیاس‌بندی (Re-scaling) می‌شوند تا خروجی سازگار باقی بماند.

---

🔖 #هوش_مصنوعی #یادگیری_عمیق #LLM #شبکه_عصبی #دراپ_اوت #DeepLearning #AI #MachineLearning
@rss_ai_ir

🥰8👏5😁5❤4🔥4👍2🎉2

230 viewsedited 05:09

VIRSUN

🧪ابزار DeepEval؛ چارچوب متن‌باز برای ارزیابی LLMها

ابزار DeepEval یک ابزار ساده و متن‌باز است که برای ارزیابی و تست سیستم‌های مدل زبانی بزرگ طراحی شده. این فریمورک شبیه Pytest عمل می‌کند اما تخصصی برای یونیت‌تست خروجی‌های LLM ساخته شده است.

🔹 ویژگی‌ها:

♻️پشتیبانی از متریک‌های مهم مثل G-Eval، hallucination، answer relevancy، RAGAS و غیره.

♻️اجرای محلی روی سیستم شما بدون وابستگی به سرور خارجی.

♻️مناسب برای RAG pipelineها، چت‌بات‌ها، ایجنت‌ها و پیاده‌سازی با ابزارهایی مثل LangChain یا LlamaIndex.

♻️کمک به بهینه‌سازی مدل‌ها، پرامپت‌ها و معماری برای جلوگیری از prompt drifting یا حتی مهاجرت از OpenAI به میزبانی داخلی مثل DeepSeek R1.

📌 لینک‌ها:
🖥 Github: github.com/confident-ai/deepeval
📕 Colab: Google Colab Notebook
🔗 Project: deepeval.com

@rss_ai_ir
#هوش_مصنوعی #LLM #ارزیابی #DeepEval #AItools

🔥9🥰8❤6👍6🎉6👏5😁4

256 views13:21

VIRSUN

📊 چارچوب EfficientLLM به ما یادآوری می‌کنه که در دنیای مدل‌های بزرگ، فقط کیفیت مهم نیست؛ کارایی هم به‌اندازه کافی حیاتی‌ست.

پژوهشگران بیش از ۱۰۰ پیکربندی LLM/VLM رو بررسی کردن و به‌جای تمرکز روی FLOPs تئوریک، معیارهای واقعی مثل مصرف حافظه (VRAM)، تأخیر (Latency) و انرژی رو سنجیدن.

🔑 چند نکته کلیدی:

وقتی حافظه یا سرعت گلوگاه باشه → مکانیزم‌های توجه (Attention) با تعداد کلید/هد کمتر، مصرف VRAM و زمان پاسخ رو به‌شدت کاهش می‌دن.

اگر دقت حرف اول رو می‌زنه → توجه کامل (Full Attention) و موقعیت‌دهی RoPE بهترین انتخاب هستن، اما هزینه‌ی منابع بالاتر خواهد بود.

✳️همچنین MoE (Mixture of Experts) کیفیت رو بدون افزایش زیاد هزینه‌ی محاسباتی بالا می‌بره، ولی VRAM بیشتری نیاز داره و دیپلوی سخت‌تر می‌شه.

در فاین‌تیونینگ:
✳️ مدل‌های کوچک (≈۱–۳B) → LoRA و خانواده‌اش بهترین بازدهی رو دارن.
✳️ مدل‌های بزرگ‌تر (≈۱۴B+) → RSLoRA معمولا برتره.
✳️ اگر چرخه‌های سریع مهم باشه → Freeze لایه‌ها سرعت رو چندبرابر می‌کنه.

در استنتاج:
♻️ کوانتیزه‌سازی تا int4 جهش بزرگی در صرفه‌جویی هزینه/وات/گیگابایت می‌ده، با اندکی افت دقت.
♻️ برای حفظ دقت بالا → bf16 معمولا بهتر از fp16 روی GPUهای مدرن عمل می‌کنه.

📌 جمع‌بندی:

کمبود VRAM → توجه بهینه + موقعیت نسبی + LoRA + int4

نیاز به حداکثر دقت → توجه کامل + RoPE + RSLoRA + bf16

محدودیت Compute → سراغ MoE بروید، اما VRAM رو حساب کنید

چرخه‌های سریع توسعه → Freeze موقت، بعد LoRA/RSLoRA

❓شما بیشتر کجا گیر می‌کنید؟ حافظه، سرعت، انرژی یا دقت؟

@rss_ai_ir
#هوش_مصنوعی #مدل_زبان_بزرگ #بهینه‌سازی #LLM #کارایی

😁7🔥6❤5👍5👏4🎉4🥰2

2.41K views15:26

VIRSUN

📌 دیپ‌سیک نسخه V3.1

♻️مدل جدید با ۶۸۵ میلیارد پارامتر به‌عنوان یک مدل متن‌باز ترکیبی برای استدلال معرفی شده است. این نسخه علاوه بر بهبودهای کیفی، تمرکز ویژه‌ای روی توانایی‌های عامل‌محور (agentic capabilities) دارد.

📊 نتایج بنچمارک‌ها نشان می‌دهد:

♻️در SWE-bench Verified امتیاز 66.0 در برابر 44.6 نسخه R1
♻️در SWE-bench Multilingual امتیاز 54.5 (تقریباً دو برابر نسخه‌های قبلی)
♻️در Terminal-Bench جهش بزرگ تا 31.3 (مقایسه با 5.7 نسخه R1)

همچنین در حوزه‌های کاربردی دیگر:

SimpleQA → دقت 93.4%

Frames → امتیاز 83.7

xBench-DeepSearch → امتیاز 71.2

و در Browsecomp نیز برتری قابل توجه نسبت به نسخه قبلی.

🚀 این نتایج نشان می‌دهد که DeepSeek-V3.1 یکی از قوی‌ترین مدل‌های متن‌باز حال حاضر است، مخصوصاً در وظایف چندزبانه، QA و محیط‌های پویا مثل ترمینال.

🔗 این حرکت، رقابت متن‌بازها با مدل‌های کلوزد مثل GPT-5 و Claude را وارد مرحله تازه‌ای می‌کند.

#AI #LLM #DeepSeek #opensource #benchmark

@rss_ai_ir

783 views04:44

VIRSUN

🔥 درست یک سال گذشت و حالا xAI وزن‌های Grok 2 را منتشر کرده است.

🔹 معماری همانند Grok 1 باقی مانده: مبتنی بر MoE (Mixture of Experts) با ۸ اکسپرت.
🔹 از نظر متریک‌ها، عملکرد در سطح GPT-4o و Claude 3.5 Sonnet گزارش شده.
🔹 حجم چک‌پوینت حدود ۵۰۰ گیگابایت است و برای اجرا نیاز به ۸ کارت GPU با بیش از ۴۰ گیگابایت حافظه در هر کارت دارید.
🔹 لایسنس استفاده بسیار باز است: هم استفاده غیرتجاری رایگان و هم استفاده تجاری تا سقف ۱ میلیون دلار درآمد سالانه مجاز است.

📂 مدل در Hugging Face در دسترس قرار گرفته.

@rss_ai_ir
#Grok #xAI #هوش_مصنوعی #LLM #OpenSource

❤18🔥12😁10👍7🎉7👏1

903 views08:45

VIRSUN

🌍 معرفی MCP-Universe: بِنچمارک جدید Salesforce برای LLMها با سرورهای MCP

🔹 شرکت Salesforce یک بِنچمارک تازه منتشر کرده که توانایی مدل‌های زبانی بزرگ (LLM) را در کار با MCP (Model Context Protocol) می‌سنجد. MCP که اواخر ۲۰۲۴ توسط Anthropic معرفی شد، پروتکلی است برای اتصال LLM به سرویس‌ها و منابع داده‌ی بیرونی (مثل ابزارها و APIها).

---

🔎 ساختار بِنچمارک

♻️شامل ۱۱ MCP سرور با ۱۳۳ ابزار در ۶ حوزه مختلف
♻️در مجموع ۲۳۱ تسک واقعی طراحی شد، که هرکدام نیازمند یک یا چند تعامل MCP هستند

📌 نمونه حوزه‌ها و زیرتسک‌ها:

🗺 ناوبری روی نقشه: مسیریابی، ایستگاه‌های بهینه، جستجوی مکان و جستجو بر اساس ID

💻 مدیریت ریپازیتوری کد: تنظیم پروژه، ترکینگ مشکلات، اتوماسیون و ادغام کد

💰 تحلیل مالی: پورتفولیو، گزارش‌دهی، استراتژی معاملاتی، دارایی‌های نهادی، تحلیل سود سهام

🎨 طراحی سه‌بعدی (Blender): ساخت آبجکت، متریال، نورپردازی، رندر و سازمان‌دهی صحنه

🌐 اتوماسیون مرورگر: رزرو بلیط، تحلیل ورزشی، ریسرچ آکادمیک، پلتفرم آنالیز و ناوبری نقشه

🔎 وب‌سرچ: شناسایی افراد، استخراج موجودیت‌ها، متریک مَچینگ، استدلال پیچیده، فکت چک

---

⚙️ روش ارزیابی

♻️بررسی صحت فرمت پاسخ
♻️مقایسه ساده با جواب درست
♻️ارزیابی داینامیک (برای پرسش‌هایی مثل «امروز هوا چطوره» که پاسخ ثابت ندارند)

❗️ بخش بزرگی از تسک‌ها بیش از ۵ تماس با MCP نیاز دارند، یعنی مدل باید توانایی کار با کانتکست‌های طولانی و زنجیره تعاملات پیچیده را داشته باشد. همچنین تسک‌های بیش‌ازحد ساده یا مستقل از MCP فیلتر شدند.

---

✅ اهمیت این بِنچمارک در اینه که داره اولین بار مهارت واقعی LLMها در تعامل با ابزارهای بیرونی و حل مسائل دنیای واقعی رو می‌سنجه، نه فقط پرسش و پاسخ متنی.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #AI_Benchmark #صنعت

🔥13❤12👍12🎉8😁6

248 views04:47

VIRSUN

📊 نتایج بنچمارک MCP-Universe

تست‌های تازه‌ی MCP-Universe یک برنده‌ی مشخص داشتند: GPT-5 با اختلاف زیاد در صدر قرار گرفت:

🏆 نرخ موفقیت (SR) → ۴۳.۷٪

🏆 امتیاز ارزیابان (AE) → ۶۰.۲٪

📈 در تمام حوزه‌ها پیشتاز است، به جز Browser Automation که کمی بهتر از آن Grok-4 عمل کرده.

---

🔎 جزئیات بر اساس حوزه‌ها:

✅تحلیل مالی (Financial Analysis) → رکورد GPT-5 با ۶۷.۵٪؛ فاصله‌ی چشمگیر از بقیه.

✅طراحی سه‌بعدی (3D Designing) → باز هم صدرنشین با ۵۲.۶٪.

✅مدیریت مخزن کد (Repository Management) → GPT-5 با ۳۰.۳٪ به‌وضوح بالاتر از رقباست.

✅اتوماسیون مرورگر (Browser Automation) → این‌جا شگفتی رقم خورد: Grok-4 با ۴۱.۰٪ جلوتر از GPT-5 (۳۵.۹٪).

---

🟢 در میان مدل‌های متن‌باز (Open-Source):

♻️مدل GLM-4.5 بهترین عملکرد را داشت با ۲۴.۷٪ SR و ۴۱.۲٪ AE.

♻️مدل Kimi-K2 با وجود تبلیغات زیاد درباره‌ی آموزش ویژه برای MCP، تنها به ۱۹٪ SR رسید.

---

⚠️ نکته‌ی مهم: حتی رهبر جدول یعنی GPT-5 هم نتوانست از مرز ۵۰٪ کیفیت نهایی عبور کند. این نشان می‌دهد که تعامل LLMها با سرورهای MCP هنوز راه زیادی تا بلوغ کامل دارد، و این وظایف واقعاً پیچیده و چندلایه هستند.

@rss_ai_ir
#هوش_مصنوعی #LLM #MCP #GPT5 #Benchmarks

❤15😁11🔥9👍8🎉8

221 views04:47

About

Blog

Apps

Platform