NLP stuff

درسته که ما فعلا نمی‌تونیم لقمه‌های بزرگ مثل آموزش دادن GPT3 و GPT2 و اینها رو برداریم؛ ولی می‌تونیم که کوچیک کوچیک سهم خودمون رو در دنیای nlp بیشتر کنیم! این پروژه نمونه یکی از همون پروژه‌های جمع و جور هستش که سعی داره یک پیشرفت رو به نمایش بگذاره. ازش استفاده کنین تا سریعتر از nltk بتونین bleu رو حساب کنید!
به طور فنی‌تر اگر مجموعه مرجعتون خیلی بزرگه و می‌خواید معیار bleu یا self-bleu رو برای مدل‌های مختلف حساب کنید به احتمال زیاد به کارتون میاد (در واقع مجموعه مرجع ثابت و چندین مجموعه hypotheses دارید. بیشتر در ارزیابی مدل‌های زبانی چنین شرایطی پیش میاد)

تا جایی که می‌شده تست شده؛ خوشحال می‌شیم اگه مشکلی داشت issue بزنید. روی لینوکسم هست و برای ویندوز تست نشده!

در ضمن شما هم اگر کدی زدید که فکر می‌کنید می‌تونه خفن باشه به ما بگین تا تبلیغش کنیم.

https://github.com/Danial-Alh/fast-bleu

#irani
#tool
#code

@nlp_stuff

GitHub

GitHub - Danial-Alh/fast-bleu: A fast multithreaded C++ implementation of NLTK BLEU with Python wrapper.

A fast multithreaded C++ implementation of NLTK BLEU with Python wrapper. - Danial-Alh/fast-bleu

845 viewsedited 19:28

NLP stuff

کتابخونه nlpaug خیلی‌ به‌دردبخوره. باهاش میتونید نویز رو در سطح کاراکتر و کلمه به دیتاست وارد کنید و به شکل نیکویی data augmentation کنید. چند تا از کارای باحالش:
- حروف را حروف کنارش در کیبورد (QWERTY) و یا رندوم جایگزین می‌کنه.
- کلمه‌ها را با کلمه‌های مشابه با استفاده از wordnet، word2vec، GloVe، fasttext ،BERT و یا به صورت رندم با کلمه‌های دیگه جایگزین می‌کنه.

خلاصه خیلی خوبه. لینک بلاگ و گیتش را در ادامه آوردیم.

https://towardsdatascience.com/data-augmentation-library-for-text-9661736b13ff

https://github.com/makcedward/nlpaug

اگر با data augmentation آشنا نیستید این دو تا پست را ببینید:
https://yangx.top/nlp_stuff/5
https://yangx.top/nlp_stuff/71

#read
#blog
#tool

@nlp_stuff

1.51K views12:19

NLP stuff

This media is not supported in your browser

VIEW IN TELEGRAM

اکستنشن ویدیوی arxiv

برادر آمیت برادری را در حقمون تکمیل کرده و یه اکستنشن روی کروم زده که از مقاله‌ی arxiv لینک میده به ویدیوی ارائه‌ی مقاله.
لینک اکستنشن، گیت و لیست مقاله‌هایی که ویدیوشون را اضافه کرده در ادامه آوردیم:

https://chrome.google.com/webstore/detail/papers-with-video/aflnhgmklenfljibnfellgkmdpmmoekf

https://github.com/amitness/papers-with-video

https://gist.github.com/amitness/9e5ad24ab963785daca41e2c4cfa9a82

#tool

@nlp_stuff

1.92K viewsedited 15:49

NLP stuff

گراف مقالات مرتبط با یک مقاله

دارید روی یک موضوعی پژوهش می‌کنید و خیلی بی‌هدف و شاید نومیدانه دنبال مقالات مرتبط و پیشینش جستجو می‌کنید؟ پس این ابزار رو امتحان کنید شاید مفید واقع شد، کافیه یک مقاله هدف رو بهش بدید تا براتون یک گراف خوشگل از کارهای مرتبطش رسم کنه.

هر گره این گراف یک مقاله است که به اون مقاله مورد جستجو شما مرتبطه. رنگ و سایز هر گره هم سال انتشار و تعداد ارجاعات شده به اون مقاله رو نشون میدن. مقاله‌ها هم بر اساس این که چه قدر با هم ارجاعات مشترک دارن به هم دیگه وصل شده‌اند.

https://www.connectedpapers.com/

#tool

@nlp_stuff

3.69K views16:16

NLP stuff

کتابخانه wordfreq

امشب می‌خوایم یک کتابخونه کوچیک رو بهتون معرفی کنیم. در خیلی از کاربرد‌ها و مسائل واقعی به علت پیچیدگی و هزینه‌های بالای شبکه‌های دیپ و یادگیری انتها به انتها امکان استفاده ازشون نیست؛ در نتیجه مجبوریم که به سمت روش‌های سنتی و در نتیجه استخراج ویژگی از متن و کلمه پیش بریم. یکی از ویژگی‌های مهم هر کلمه می‌تونه فراوانی استفاده ازش در پیکره‌های (corpus) مختلف باشه که این معیار میتونه نشون بده که این کلمه چه قدر رایجه، چه قدر ایست‌واژه‌ست (stopword) یا چه قدر خاصه. در صورتی که خودتون بخواید برای هر کلمه بیاید این عدد رو حساب کنید نیازمند این هستید که یک پیکره بزرگ پیدا کنید و فراوانی هر کلمه از اون رو محاسبه کنید که خب فرآیند وقت‌گیر و رم‌گیری میتونه باشه.
کتابخونه‌ی wordfreq برای ۳۶ زبان مختلف (‌از جمله زبان فارسی) فراوانی نسبی کلمات رو روی پیکره‌های متنی بزرگ هر زبان (‌مثلا برای فارسی روی Wikipedia و Subtitles و OSCAR و Twitter) حساب کرده و به راحتی آب خوردن و به سرعت اراده کردن، برای هر کلمه‌ای که بخواید این مقدار رو بهتون برمی‌گردونه.

لینک کتابخونه:
https://github.com/LuminosoInsight/wordfreq/

#tool

@nlp_stuff

GitHub

GitHub - rspeer/wordfreq: Access a database of word frequencies, in various natural languages.

Access a database of word frequencies, in various natural languages. - rspeer/wordfreq

1.56K viewsedited 16:23

NLP stuff

معرفی کتابخانه‌ی Accelerate

چند وقت پیش هاگینگ فیس کتابخونه‌ی Accelerate را بیرون داد.
با این زبون‌بسته شما می‌تونید راحت روی TPU (شما هم اگر مثل ما توی خونتون TPU ندارید، از مال کولب می‌تونید استفاده کنید) مدل ترین کنید.
این شکلی هم هست که شما یه تابع ترین با پایتورچ تعریف می‌کنید و به این کتابخونه می‌دید.
یه نوت‌بوک هم برای مثال درست کردند که برت رو روی دیتاست glue mrpc (هر سطر از این دیتاست یه جفت جمله‌ست و لیبلش اینه که از نظر معنایی با هم یکسان هستند یا خیر؟) ترین می‌کنه.

لینک کتابخانه:
https://github.com/huggingface/accelerate

لینک نوت‌بوک مثال:
https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/accelerate/simple_nlp_example.ipynb

#tool

@nlp_stuff

1.41K views13:42

NLP stuff

TensorFlow Decision Forests (TF-DF)

یکی از مدل‌های معروف و کارا در یادگیری ماشین «جنگل تصمیم‌گیری» است. همون‌طور که می‌دونید، این مدل‌ها تفسیرپذیری بالایی دارند و می‌تونند روی دیتای عددی وcategorical بدون پیش‌پردازش کار کنند.
تنسرفلو حالا جنگل تصمیم‌گیری رو به کتابخونه‌ی خودش اضافه کرده تا بتونید این مدل را راحت آموزش بدید، سرو کنید و تفسیر کنید؛ البته این مدل در کتابخونه‌های دیگه مثل sklearn وجود داشتند اما حالا با استفاده از TF-DF می‌توان از ابزارهای دیگه‌ی تنسرفلو مثل TF-serving و TFX به صورت یکپارچه و راحت‌تر استفاده کرد و لذت برد. همچنین تنسرفلو کلی از انواع این مدل رو مثل random forests, gradient-boosted trees, CART, (Lambda)MART, DART, Extra Trees, greedy global growth, oblique trees, one-side-sampling, … اضافه کرده.
نمونه‌ی کد و تفسیر مدل رو در دو عکس بالا آوردیم.

لینک پست توضیح TF-DF:
https://blog.tensorflow.org/2021/05/introducing-tensorflow-decision-forests.html?m=1

#read
#blog
#tool

@nlp_stuff

1.29K views13:53

NLP stuff

پردازش صوت با speechbrain

اگه دنبال یه ابزاری می‌گردید که بتونید باهاش راحت کارهای پردازش صوتی بکنید، باید برید سراغ speechbrain. این ابزار کارهای بازشناسی گفتار، بازشناسی گوینده، بهبود صوت، پردازش‌های میانی مانند استخراج فیچر و پردازش همزمان چندین میکروفون رو انجا میده. نکته اینه که مدل‌هایی که استفاده شده کاملا به‌روز و در برخی کاربرد‌ها حتی state of the art هستند و در برخی دیگه هم عملکرد کاملا رقابتی دارند. از ویژگی‌های مهم دیگه این ابزار اینه که مدل‌های استفاده شده در این ابزار بر روی هاگینگ‌فیس موجودند. شاید تنها ضعف این ابزار اینه که مدل‌ها کاملا پایتورچی هستند و خبری از تنسورفلو نیست اما با توجه به سادگی کاربرد و همچنین وجود مدل‌ها بر روی هاگینگ‌فیس نباید اصلا نگران استفاده ازش باشید. از دیگر ویژگی‌های مثبتش هم اینه که کاملا با GPU دوسته و اگه لازم دارید تا اون رو بر روی دیتاست خودتون آموزش بدید و از GPU استفاده کنید، قطعا مشکلی نخواهید داشت. پیشنهاد می‌کنیم بر و بچه‌های صوتی حتما یه نگاهی به این ابزار به‌روز بندازند.

لینک گیت‌هاب:
https://github.com/speechbrain/speechbrain

لینک صفحه رسمی در هاگینگ‌فیس :
https://huggingface.co/speechbrain

#tool

@nlp_stuff

GitHub

GitHub - speechbrain/speechbrain: A PyTorch-based Speech Toolkit

A PyTorch-based Speech Toolkit. Contribute to speechbrain/speechbrain development by creating an account on GitHub.

1.77K viewsedited 09:00

NLP stuff

کتابخانه‌ی AugLy فیس‌بوک!

تا حالا خیلی راجع به augmentation، اهمیتش و انواعش پست گذاشتیم؛ مثل این پست و این پست و این پست (اگر لینکاشونو نمی‌بینید، یعنی تلگرامتون آپدیت نیست یا در نسخه وب دیده نمیشه!)؛ حالا در همین راستا فیس‌بوک کتابخانه‌ی AugLy رو اوپن‌سورس کرده.
این کتابخونه از چهار تا زیرکتابخونه برای چهار مودالیتی (متن، صوت، تصویر و فیلم) ساخته شده و همه‌شون هم interfaceهای مشابهی دارند. فیس‌بوک کتابخونه‌های مختلف قبلی رو توی این کتابخونه جمع کرده و یه سری چیزای جدید هم خودش نوشته. توابع جالبی غیر از توابع معمول (کراپ، چرخش و ...) واسه عکس داره؛ مثلا یه عکس رو میگیره و میذاره توی قالب اینستاگرام و بقیه‌ی شبکه‌های اجتماعی که انگار یه نفر اسکرین‌شات گرفته و به اشتراک گذاشته و خب این خیلی به‌دردبخوره چون ملت اکثرا اینجوری پست‌های اینستاگرام و توییتر رو به هم میفرستند. یا روی متن کلی تغییرات متنوع داره که توی تصاویر ضمیمه شده هم مشاهده می‌کنید. کلا هم این داستان augmentation چه واسه اینکه مدل نسبت به ورودی‌های مختلف robust باشه چه از نظر بیزینسی خیلی خوبه؛ مثلا اگر یه کاربر یه ذره یه عکس یا ویدیو یا موسیقی رو تغییر بده و بخواد به اسم خودش آپلود کنه، مشخص میشه. از این کتابخونه در چالش تشخیص دیپ فیک هم استفاده شد که بفهمند مدل کی robustتره.
هنوز داکیومنتیشن کتابخونه کامل نیست و یه سری مثال اولیه برای هر کدوم از مودالیتی‌ها آورده؛ اما توصیه می‌کنیم جزء پیشروهایی باشید که سراغش میره.

لینک گیت:
https://github.com/facebookresearch/AugLy
لینک بلاگ توضیح کتابخونه:
https://ai.facebook.com/blog/augly-a-new-data-augmentation-library-to-help-build-more-robust-ai-models/

پ.ن.۱. سه تا تصویر ضمیمه شده. ورق بزنید.
پ.ن.۲. لطفا کانال را به بقیه هم معرفی کنید.
#tool

@nlp_stuff

stuff

2.04K viewsedited 10:39

NLP stuff

مدل codex در برابر کدزن‌ها!

حدود ده روز پیش بود که ابزار github copilot (اگر ندیدید این جا رو ببینید: https://copilot.github.com) رونمایی شد و موجب گریبان دریدن تعداد زیادی از افراد و به خصوص قشر برنامه‌نویس شد. همان موقع این سوال ایجاد شد که قضیه فنی پشت copilot چیه و چه قدر قدرت و توانایی داره. حالا یک جمعی از دوستان در open-ai اومدند و مقاله‌ای دادند تا به مانند همیشه حرص و حسادت ما رو برانگیزند. در این مقاله صحبت از مدل زبانی به نام codex کردند و بیان کردند که ابزار copilot نیز بر پایه همین مدل زبانی بنا شده و از اون قدرت می‌گیره. لازم به ذکر است که در این مقاله صرفا به بررسی کیس آموزش codex روی پایتون پرداختند و در مورد عملکرد بقیه مدل‌ها سخنی به میان نیامده. به طور اجمالی، codex یک مدل زبانی بر پایه معماری GPT با سایز ۱۲ میلیارد پارامتره که بر روی یک دیتاست حامل داک استرینگ‌ها و پیاده‌سازی توابع در زبان پایتون آموزش دیده تا تسکی به نام تولید فانکشن رو یاد بگیره؛ یعنی با گرفتن داک استرینگ‌ها بتونه متن تابع رو پیاده کنه (برای این که یک مقیاسی دستتون بیاد روی دیتاستی با حجم ۱۵۹ گیگ با این اوصاف ذکر شده آموزش دیده)
اما در موقع ارزیابی از اونجایی که open-ai منابع و پول زیاد داره و حیفه که ازشون استفاده نکنه، اومده روی کدهای خروجی unit test انجام داده تا بتونند بفهمند قدرت codex در چه حده و چند درصد برنامه‌هایی که می‌نویسه صحیح و درست عمل می‌کنند. گل مطلب اینه که در موقعی که یک سمپل از مدل codex گرفته بشه این مدل ۳۷.۷ درصد از توابع رو درست پیاده سازی می‌کرده (عدد حیرت انگیزیه) و هنگامی که به جای یک سمپل صد سمپل از codex بگیریم، این مدل ۷۷.۵ درصد از توابع رو می‌تونسته درست پیاده کنه (به طور خیلی ساده شده بخوایم بگیم در ۷۷.۵ درصد مواقع یکی از سمپل‌ها بوده که جواب درست بوده!)
در ادامه این مقاله هم از اونجا که همچنین کلی دلار باقی مونده بوده کلی اکسپریمنت و یونیت تست انجام دادند تا رفتار codex رو بررسی کنند. در آخر هم بخشی رو به خواباندن هایپ جوگیرها تخصیص دادند و از معایب‌ و موانع و خطرات استفاده از codex در صنعت و حل مسائل دنیای واقعی صحبت کردند و کلا هنوز کلی راه تا رویای پیاده‌سازی اتومات برنامه‌ها و اخراج برنامه‌نویس‌ها مونده ولی نشدنی نیست...

لینک مقاله:
https://arxiv.org/abs/2107.03374

#paper
#read
#tool

@nlp_stuff

stuff

3.19K viewsedited 16:29

NLP stuff

مستندسازی کیفیت عملکرد مدل‌های زبانی فارسی

بسیاری از مواقع مقاله یا مدلی رو دیدید که نویسنده ادعا کرده با مدل ابداعی خودش به فلان دقت روی یک وظیفه زبان فارسی رسیده، اما در عین حال کد و مستندی رو برای این ادعاش منتشر نکرده. بچه‌های تیم هوش مصنوعی شرکت مفید کدهای تمیزی زدند که ملت بتونند راحت مدل‌های مختلف ارائه شده برای وظایف زبان فارسی رو روی دیتاست‌های مختلف تست بگیرند و ارزیابی کنند. نکته مهم‌تر اینه که کدهاشون رو روی گیت سخاوتمدانه به اشتراک گذاشتند؛ پس بهشون استار بدید که انرژی بگیرند و بقیه‌ی کدهاشونم بگذارند. :)

لینک ریپو:
https://github.com/Mofid-AI/persian-nlp-benchmark

#tool
#irani

@nlp_stuff

GitHub

GitHub - Mofid-AI/persian-nlp-benchmark: A benchmark for evaluation and comparison of various NLP tasks in Persian language.

A benchmark for evaluation and comparison of various NLP tasks in Persian language. - Mofid-AI/persian-nlp-benchmark

7.13K views13:30

NLP stuff

مدل‌های دسته‌بندی صوتی در هاگینگ‌فیس

قبلا در دو پست این [https://yangx.top/nlp_stuff/152] و این [https://yangx.top/nlp_stuff/184] راجع به مدل wave2vec و ابزار speechbrain صحبت کرده بودیم.
حالا کم‌کم زمان برداشت فرا رسیده و ملت مدل‌های کاربردی روی این مدل‌ها و ابزارهای پایه دارند تولید می‌کنند و روی هاگینگ‌فیس هم می‌گذارند.
به تسک‌هایی مثل تشخیص زبان، استخراج کلمات کلیدی، تشخیص احساسات، تشخیص گوینده و … از روی صدای ورودی، دسته‌بندی صوتی گفته میشه.

لینک کل مدل‌های دسته‌بندی صوتی موجود روی هاگینگ فیس:
https://huggingface.co/models?pipeline_tag=audio-classification

لینک مدل تشخیص زبان (فارسی هم داره) با Speechbrain:
https://huggingface.co/speechbrain/lang-id-commonlanguage_ecapa

#tool
#link

@nlp_stuff

1.94K viewsedited 13:30

NLP stuff

This media is not supported in your browser

VIEW IN TELEGRAM

مدل‌های document parsing در هاگینگ‌فیس

دو مدل LayoutLMv2 و LayoutXLM از مایکروسافت برای پارس کردن تصاویر متنی به هاگینگ فیس اضافه شده و دمویی هم در لینک زیر براشون قرار داده شده که می‌تونید امتحان کنید. به این مدل‌ها مولتی‌مودال بین متن و لایوت و تصویر گفته میشه. این مدل‌ها کلمه‌های داخل عکس را یکی از تگ‌های مثل QUESTION/ANSWER/HEADER/OTHER می‌زنند و یعنی دارند کل جدول رو براتون پارس می‌کنند که باعث میشه خیلی راحتتر بتونید با مقادیر جدول کار کنید.
مدل LayoutXLM روی ۵۳ تا زبون (از جمله فارسی) پیش‌آموزش داده شده.

- دموی مدل LayoutLMv2:
https://huggingface.co/spaces/nielsr/LayoutLMv2-FUNSD

- لینک‌های مقاله و هاگینگ‌فیس مدل LayoutXLM:
https://huggingface.co/microsoft/layoutxlm-base

https://arxiv.org/abs/2104.08836

- لینک‌های مقاله و هاگینگ‌فیس مدل LayoutLMv2:
https://huggingface.co/microsoft/layoutlmv2-base-uncased

https://arxiv.org/abs/2012.14740

#tool
#link

@nlp_stuff

1.72K views15:40

About

Blog

Apps

Platform