VIRSUN

🧠 پشته‌ی توسعه‌دهندگان RAG (بازیابی + تولید) به زبان ساده!

♻️این تصویر، نمای کاملی از ابزارها و لایه‌های مورد استفاده برای ساخت سیستم‌های RAG رو نشون می‌ده — از استخراج داده گرفته تا مدل زبانی و ارزیابی نهایی.

📌 خلاصه مهم‌ترین اجزا:
🔹 مدل‌های زبانی (LLMs):
متن‌باز: LLaMA 3.3، Mistral، Phi-4، Qwen 2.5، Gemma 3، DeepSeek
بسته: GPT (OpenAI)، Claude (Anthropic)، Gemini (Google)، Cohere، Amazon

🔹 فریم‌ورک‌ها برای پیاده‌سازی RAG:
LangChain، LlamaIndex، Haystack، Txtai

🔹 دیتابیس برداری (Vector DBs):
Chroma، Pinecone، Weaviate، Qdrant، Milvus

🔹 استخراج داده:
از وب: Crawl4AI، ScrapeGraphAI، FireCrawl
از اسناد: MegaParser، Docling، LlamaParse، ExtractThinker

🔹 مدل‌های برداری متن (Text Embedding):
SBERT، Nomic، Ollama، OpenAI، Cohere

🔹 ارزیابی عملکرد:
Giskard، Ragas، Trulens، Voyage AI
🔧 همه این ابزارها با هدف ساخت یک سیستم هوشمند RAG ترکیب می‌شن که بتونه اطلاعات رو از منابع مختلف بگیره، بفهمه، و خروجی دقیق تولید کنه.

📣 اگر می‌خوای مدل‌های Retrieval-Augmented Generation حرفه‌ای بسازی، این پشته‌ی ابزارها دقیقاً چیزیه که باید بلد باشی!

📍 آموزش‌ها و ابزارهای بیشتر در:
@rss_ai_ir
#RAG #هوش_مصنوعی #LLM #LangChain #پردازش_زبان #بردار_متن #استخراج_داده #پشته_توسعه #AItools #openai #gemini #cohere #ragstack

👏2❤1🔥1

191 views14:09

VIRSUN

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

📦 کتابخانه LangExtract از گوگل؛ استخراج ساختار از متن به کمک هوش مصنوعی

🔍 گوگل به‌تازگی از LangExtract رونمایی کرده؛ یک کتابخانه اپن‌سورس پایتون برای استخراج اطلاعات ساختار‌یافته از متون بلند، با بهره‌گیری از مدل‌های LLM مثل Gemini.

📌 ویژگی‌های برجسته LangExtract:

✅ ردیابی دقیق منبع اطلاعات:
هر داده‌ای که استخراج می‌شود (مثل نام، تاریخ یا دوز دارو)، به مکان دقیق آن در متن اصلی اشاره دارد. این یعنی می‌توان منشأ دقیق اطلاعات را بررسی کرد.

✅ فرمت خروجی قابل‌اعتماد و مشخص:
با استفاده از چند مثال و تعیین ساختار موردنظر، خروجی همیشه فرمتی منسجم و قابل‌پیش‌بینی دارد.

✅ پشتیبانی از متون بسیار طولانی:
متن‌ها به بخش‌هایی تقسیم شده و به‌صورت موازی پردازش می‌شوند. این باعث افزایش دقت و مقیاس‌پذیری در داده‌های سنگین می‌شود.

✅ نمایش گرافیکی HTML:
با خروجی تعاملی HTML می‌توانید هزاران برچسب استخراج‌شده را در متن به‌صورت بصری بررسی کنید.

✅ سازگار با LLMهای مختلف:
گرچه توسط گوگل توسعه یافته، اما فقط محدود به Gemini نیست. می‌توانید از مدل‌های دیگر به‌صورت محلی یا ابری استفاده کنید.

✅ قابلیت غنی‌سازی با دانش عمومی مدل‌ها:
بعضی داده‌ها ممکن است از "دانش درونی" مدل استخراج شوند؛ مثلاً اطلاعاتی که صراحتاً در متن نیست اما مدل بر اساس دانش عمومی خود پیشنهاد می‌دهد.

🔬 کاربرد اصلی اولیه: تحلیل گزارش‌های پزشکی گوگل در دمو RadExtract نشان داده که این ابزار چگونه می‌تواند از گزارش‌های رادیولوژی، داده‌های مهم را استخراج و ساختاردهی کند.

🧪 دمو آنلاین: RadExtract در Hugging Face
📚 توضیح رسمی: مقاله وبلاگ گوگل
💾 سورس‌کد: LangExtract در گیت‌هاب
🔖 لایسنس: Apache 2.0

@rss_ai_ir
#استخراج_اطلاعات #هوش_مصنوعی #Google #LangExtract #LLM #پردازش_زبان_طبیعی

❤2👍1🙏1

198 views13:17

About

Blog

Apps

Platform