VIRSUN
13.8K subscribers
502 photos
302 videos
2 files
305 links
📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🔹 کانال توسط اساتید هوش مصنوعی مدیریت میشود
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir
加入频道
🌟 POINTS-Reader
؛ مدل جمع‌وجور OCR از Tencent

📌 شرکت Tencent پروژه جالبی منتشر کرده به نام POINTS-Reader؛ یک مدل زبانی-دیداری (VLM) برای OCR انگلیسی و چینی با تنها ۴ میلیارد پارامتر که بر پایه Qwen2.5-3B-Instruct ساخته شده و در OmniDocBench حتی از GPT-4o و Gemini بهتر عمل کرده است.

🔹 در معماری از Qwen2.5 کوچک و یک NaViT Vision Transformer با ۶۰۰M پارامتر استفاده شده که انتخابی آگاهانه برای سادگی و سرعت بوده است.

🔹 روش یادگیری مدل بر اساس دو مرحله:

1. آموزش اولیه با داده‌های مصنوعی برای کسب مهارت OCR
2. یادگیری خود-تکاملی: مدل روی اسناد واقعی برچسب‌گذاری می‌کند، بهترین نمونه‌ها دوباره به چرخه آموزش بازمی‌گردند.





⚠️ محدودیت‌ها:

♻️در صفحه‌آرایی‌های پیچیده (مثل روزنامه‌ها) دچار تکرار یا حذف محتوا می‌شود.
♻️دست‌نوشته‌ها (رسید یا یادداشت) همچنان چالش‌برانگیزند.
♻️فعلاً فقط دو زبان انگلیسی و چینی پشتیبانی می‌شوند.

▶️ مدل آماده استفاده روی Transformers و SGLang است. پشتیبانی از vLLM به‌زودی افزوده خواهد شد.

🟡 [Arxiv]
🟡 [GitHub]

@rss_ai_ir

#هوش_مصنوعی #بینایی_ماشین #OCR #Tencent #POINTSReader
👍1🔥1👏1🙏1