🌟 POINTS-Reader
؛ مدل جمعوجور OCR از Tencent
📌 شرکت Tencent پروژه جالبی منتشر کرده به نام POINTS-Reader؛ یک مدل زبانی-دیداری (VLM) برای OCR انگلیسی و چینی با تنها ۴ میلیارد پارامتر که بر پایه Qwen2.5-3B-Instruct ساخته شده و در OmniDocBench حتی از GPT-4o و Gemini بهتر عمل کرده است.
🔹 در معماری از Qwen2.5 کوچک و یک NaViT Vision Transformer با ۶۰۰M پارامتر استفاده شده که انتخابی آگاهانه برای سادگی و سرعت بوده است.
🔹 روش یادگیری مدل بر اساس دو مرحله:
1. آموزش اولیه با دادههای مصنوعی برای کسب مهارت OCR
2. یادگیری خود-تکاملی: مدل روی اسناد واقعی برچسبگذاری میکند، بهترین نمونهها دوباره به چرخه آموزش بازمیگردند.
⚠️ محدودیتها:
♻️در صفحهآراییهای پیچیده (مثل روزنامهها) دچار تکرار یا حذف محتوا میشود.
♻️دستنوشتهها (رسید یا یادداشت) همچنان چالشبرانگیزند.
♻️فعلاً فقط دو زبان انگلیسی و چینی پشتیبانی میشوند.
▶️ مدل آماده استفاده روی Transformers و SGLang است. پشتیبانی از vLLM بهزودی افزوده خواهد شد.
🟡 [Arxiv]
🟡 [GitHub]
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #OCR #Tencent #POINTSReader
؛ مدل جمعوجور OCR از Tencent
📌 شرکت Tencent پروژه جالبی منتشر کرده به نام POINTS-Reader؛ یک مدل زبانی-دیداری (VLM) برای OCR انگلیسی و چینی با تنها ۴ میلیارد پارامتر که بر پایه Qwen2.5-3B-Instruct ساخته شده و در OmniDocBench حتی از GPT-4o و Gemini بهتر عمل کرده است.
🔹 در معماری از Qwen2.5 کوچک و یک NaViT Vision Transformer با ۶۰۰M پارامتر استفاده شده که انتخابی آگاهانه برای سادگی و سرعت بوده است.
🔹 روش یادگیری مدل بر اساس دو مرحله:
1. آموزش اولیه با دادههای مصنوعی برای کسب مهارت OCR
2. یادگیری خود-تکاملی: مدل روی اسناد واقعی برچسبگذاری میکند، بهترین نمونهها دوباره به چرخه آموزش بازمیگردند.
⚠️ محدودیتها:
♻️در صفحهآراییهای پیچیده (مثل روزنامهها) دچار تکرار یا حذف محتوا میشود.
♻️دستنوشتهها (رسید یا یادداشت) همچنان چالشبرانگیزند.
♻️فعلاً فقط دو زبان انگلیسی و چینی پشتیبانی میشوند.
▶️ مدل آماده استفاده روی Transformers و SGLang است. پشتیبانی از vLLM بهزودی افزوده خواهد شد.
🟡 [Arxiv]
🟡 [GitHub]
@rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #OCR #Tencent #POINTSReader
👍1🔥1👏1🙏1