درسته که ما فعلا نمیتونیم لقمههای بزرگ مثل آموزش دادن GPT3 و GPT2 و اینها رو برداریم؛ ولی میتونیم که کوچیک کوچیک سهم خودمون رو در دنیای nlp بیشتر کنیم! این پروژه نمونه یکی از همون پروژههای جمع و جور هستش که سعی داره یک پیشرفت رو به نمایش بگذاره. ازش استفاده کنین تا سریعتر از nltk بتونین bleu رو حساب کنید!
به طور فنیتر اگر مجموعه مرجعتون خیلی بزرگه و میخواید معیار bleu یا self-bleu رو برای مدلهای مختلف حساب کنید به احتمال زیاد به کارتون میاد (در واقع مجموعه مرجع ثابت و چندین مجموعه hypotheses دارید. بیشتر در ارزیابی مدلهای زبانی چنین شرایطی پیش میاد)
تا جایی که میشده تست شده؛ خوشحال میشیم اگه مشکلی داشت issue بزنید. روی لینوکسم هست و برای ویندوز تست نشده!
در ضمن شما هم اگر کدی زدید که فکر میکنید میتونه خفن باشه به ما بگین تا تبلیغش کنیم.
https://github.com/Danial-Alh/fast-bleu
#irani
#tool
#code
@nlp_stuff
به طور فنیتر اگر مجموعه مرجعتون خیلی بزرگه و میخواید معیار bleu یا self-bleu رو برای مدلهای مختلف حساب کنید به احتمال زیاد به کارتون میاد (در واقع مجموعه مرجع ثابت و چندین مجموعه hypotheses دارید. بیشتر در ارزیابی مدلهای زبانی چنین شرایطی پیش میاد)
تا جایی که میشده تست شده؛ خوشحال میشیم اگه مشکلی داشت issue بزنید. روی لینوکسم هست و برای ویندوز تست نشده!
در ضمن شما هم اگر کدی زدید که فکر میکنید میتونه خفن باشه به ما بگین تا تبلیغش کنیم.
https://github.com/Danial-Alh/fast-bleu
#irani
#tool
#code
@nlp_stuff
GitHub
GitHub - Danial-Alh/fast-bleu: A fast multithreaded C++ implementation of NLTK BLEU with Python wrapper.
A fast multithreaded C++ implementation of NLTK BLEU with Python wrapper. - Danial-Alh/fast-bleu
کتابخونه nlpaug خیلی بهدردبخوره. باهاش میتونید نویز رو در سطح کاراکتر و کلمه به دیتاست وارد کنید و به شکل نیکویی data augmentation کنید. چند تا از کارای باحالش:
- حروف را حروف کنارش در کیبورد (QWERTY) و یا رندوم جایگزین میکنه.
- کلمهها را با کلمههای مشابه با استفاده از wordnet، word2vec، GloVe، fasttext ،BERT و یا به صورت رندم با کلمههای دیگه جایگزین میکنه.
خلاصه خیلی خوبه. لینک بلاگ و گیتش را در ادامه آوردیم.
https://towardsdatascience.com/data-augmentation-library-for-text-9661736b13ff
https://github.com/makcedward/nlpaug
اگر با data augmentation آشنا نیستید این دو تا پست را ببینید:
https://yangx.top/nlp_stuff/5
https://yangx.top/nlp_stuff/71
#read
#blog
#tool
@nlp_stuff
- حروف را حروف کنارش در کیبورد (QWERTY) و یا رندوم جایگزین میکنه.
- کلمهها را با کلمههای مشابه با استفاده از wordnet، word2vec، GloVe، fasttext ،BERT و یا به صورت رندم با کلمههای دیگه جایگزین میکنه.
خلاصه خیلی خوبه. لینک بلاگ و گیتش را در ادامه آوردیم.
https://towardsdatascience.com/data-augmentation-library-for-text-9661736b13ff
https://github.com/makcedward/nlpaug
اگر با data augmentation آشنا نیستید این دو تا پست را ببینید:
https://yangx.top/nlp_stuff/5
https://yangx.top/nlp_stuff/71
#read
#blog
#tool
@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
اکستنشن ویدیوی arxiv
برادر آمیت برادری را در حقمون تکمیل کرده و یه اکستنشن روی کروم زده که از مقالهی arxiv لینک میده به ویدیوی ارائهی مقاله.
لینک اکستنشن، گیت و لیست مقالههایی که ویدیوشون را اضافه کرده در ادامه آوردیم:
https://chrome.google.com/webstore/detail/papers-with-video/aflnhgmklenfljibnfellgkmdpmmoekf
https://github.com/amitness/papers-with-video
https://gist.github.com/amitness/9e5ad24ab963785daca41e2c4cfa9a82
#tool
@nlp_stuff
برادر آمیت برادری را در حقمون تکمیل کرده و یه اکستنشن روی کروم زده که از مقالهی arxiv لینک میده به ویدیوی ارائهی مقاله.
لینک اکستنشن، گیت و لیست مقالههایی که ویدیوشون را اضافه کرده در ادامه آوردیم:
https://chrome.google.com/webstore/detail/papers-with-video/aflnhgmklenfljibnfellgkmdpmmoekf
https://github.com/amitness/papers-with-video
https://gist.github.com/amitness/9e5ad24ab963785daca41e2c4cfa9a82
#tool
@nlp_stuff
گراف مقالات مرتبط با یک مقاله
دارید روی یک موضوعی پژوهش میکنید و خیلی بیهدف و شاید نومیدانه دنبال مقالات مرتبط و پیشینش جستجو میکنید؟ پس این ابزار رو امتحان کنید شاید مفید واقع شد، کافیه یک مقاله هدف رو بهش بدید تا براتون یک گراف خوشگل از کارهای مرتبطش رسم کنه.
هر گره این گراف یک مقاله است که به اون مقاله مورد جستجو شما مرتبطه. رنگ و سایز هر گره هم سال انتشار و تعداد ارجاعات شده به اون مقاله رو نشون میدن. مقالهها هم بر اساس این که چه قدر با هم ارجاعات مشترک دارن به هم دیگه وصل شدهاند.
https://www.connectedpapers.com/
#tool
@nlp_stuff
دارید روی یک موضوعی پژوهش میکنید و خیلی بیهدف و شاید نومیدانه دنبال مقالات مرتبط و پیشینش جستجو میکنید؟ پس این ابزار رو امتحان کنید شاید مفید واقع شد، کافیه یک مقاله هدف رو بهش بدید تا براتون یک گراف خوشگل از کارهای مرتبطش رسم کنه.
هر گره این گراف یک مقاله است که به اون مقاله مورد جستجو شما مرتبطه. رنگ و سایز هر گره هم سال انتشار و تعداد ارجاعات شده به اون مقاله رو نشون میدن. مقالهها هم بر اساس این که چه قدر با هم ارجاعات مشترک دارن به هم دیگه وصل شدهاند.
https://www.connectedpapers.com/
#tool
@nlp_stuff
کتابخانه wordfreq
امشب میخوایم یک کتابخونه کوچیک رو بهتون معرفی کنیم. در خیلی از کاربردها و مسائل واقعی به علت پیچیدگی و هزینههای بالای شبکههای دیپ و یادگیری انتها به انتها امکان استفاده ازشون نیست؛ در نتیجه مجبوریم که به سمت روشهای سنتی و در نتیجه استخراج ویژگی از متن و کلمه پیش بریم. یکی از ویژگیهای مهم هر کلمه میتونه فراوانی استفاده ازش در پیکرههای (corpus) مختلف باشه که این معیار میتونه نشون بده که این کلمه چه قدر رایجه، چه قدر ایستواژهست (stopword) یا چه قدر خاصه. در صورتی که خودتون بخواید برای هر کلمه بیاید این عدد رو حساب کنید نیازمند این هستید که یک پیکره بزرگ پیدا کنید و فراوانی هر کلمه از اون رو محاسبه کنید که خب فرآیند وقتگیر و رمگیری میتونه باشه.
کتابخونهی wordfreq برای ۳۶ زبان مختلف (از جمله زبان فارسی) فراوانی نسبی کلمات رو روی پیکرههای متنی بزرگ هر زبان (مثلا برای فارسی روی Wikipedia و Subtitles و OSCAR و Twitter) حساب کرده و به راحتی آب خوردن و به سرعت اراده کردن، برای هر کلمهای که بخواید این مقدار رو بهتون برمیگردونه.
لینک کتابخونه:
https://github.com/LuminosoInsight/wordfreq/
#tool
@nlp_stuff
امشب میخوایم یک کتابخونه کوچیک رو بهتون معرفی کنیم. در خیلی از کاربردها و مسائل واقعی به علت پیچیدگی و هزینههای بالای شبکههای دیپ و یادگیری انتها به انتها امکان استفاده ازشون نیست؛ در نتیجه مجبوریم که به سمت روشهای سنتی و در نتیجه استخراج ویژگی از متن و کلمه پیش بریم. یکی از ویژگیهای مهم هر کلمه میتونه فراوانی استفاده ازش در پیکرههای (corpus) مختلف باشه که این معیار میتونه نشون بده که این کلمه چه قدر رایجه، چه قدر ایستواژهست (stopword) یا چه قدر خاصه. در صورتی که خودتون بخواید برای هر کلمه بیاید این عدد رو حساب کنید نیازمند این هستید که یک پیکره بزرگ پیدا کنید و فراوانی هر کلمه از اون رو محاسبه کنید که خب فرآیند وقتگیر و رمگیری میتونه باشه.
کتابخونهی wordfreq برای ۳۶ زبان مختلف (از جمله زبان فارسی) فراوانی نسبی کلمات رو روی پیکرههای متنی بزرگ هر زبان (مثلا برای فارسی روی Wikipedia و Subtitles و OSCAR و Twitter) حساب کرده و به راحتی آب خوردن و به سرعت اراده کردن، برای هر کلمهای که بخواید این مقدار رو بهتون برمیگردونه.
لینک کتابخونه:
https://github.com/LuminosoInsight/wordfreq/
#tool
@nlp_stuff
GitHub
GitHub - rspeer/wordfreq: Access a database of word frequencies, in various natural languages.
Access a database of word frequencies, in various natural languages. - rspeer/wordfreq
معرفی کتابخانهی Accelerate
چند وقت پیش هاگینگ فیس کتابخونهی Accelerate را بیرون داد.
با این زبونبسته شما میتونید راحت روی TPU (شما هم اگر مثل ما توی خونتون TPU ندارید، از مال کولب میتونید استفاده کنید) مدل ترین کنید.
این شکلی هم هست که شما یه تابع ترین با پایتورچ تعریف میکنید و به این کتابخونه میدید.
یه نوتبوک هم برای مثال درست کردند که برت رو روی دیتاست glue mrpc (هر سطر از این دیتاست یه جفت جملهست و لیبلش اینه که از نظر معنایی با هم یکسان هستند یا خیر؟) ترین میکنه.
لینک کتابخانه:
https://github.com/huggingface/accelerate
لینک نوتبوک مثال:
https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/accelerate/simple_nlp_example.ipynb
#tool
@nlp_stuff
چند وقت پیش هاگینگ فیس کتابخونهی Accelerate را بیرون داد.
با این زبونبسته شما میتونید راحت روی TPU (شما هم اگر مثل ما توی خونتون TPU ندارید، از مال کولب میتونید استفاده کنید) مدل ترین کنید.
این شکلی هم هست که شما یه تابع ترین با پایتورچ تعریف میکنید و به این کتابخونه میدید.
یه نوتبوک هم برای مثال درست کردند که برت رو روی دیتاست glue mrpc (هر سطر از این دیتاست یه جفت جملهست و لیبلش اینه که از نظر معنایی با هم یکسان هستند یا خیر؟) ترین میکنه.
لینک کتابخانه:
https://github.com/huggingface/accelerate
لینک نوتبوک مثال:
https://colab.research.google.com/github/huggingface/notebooks/blob/master/examples/accelerate/simple_nlp_example.ipynb
#tool
@nlp_stuff
TensorFlow Decision Forests (TF-DF)
یکی از مدلهای معروف و کارا در یادگیری ماشین «جنگل تصمیمگیری» است. همونطور که میدونید، این مدلها تفسیرپذیری بالایی دارند و میتونند روی دیتای عددی وcategorical بدون پیشپردازش کار کنند.
تنسرفلو حالا جنگل تصمیمگیری رو به کتابخونهی خودش اضافه کرده تا بتونید این مدل را راحت آموزش بدید، سرو کنید و تفسیر کنید؛ البته این مدل در کتابخونههای دیگه مثل sklearn وجود داشتند اما حالا با استفاده از TF-DF میتوان از ابزارهای دیگهی تنسرفلو مثل TF-serving و TFX به صورت یکپارچه و راحتتر استفاده کرد و لذت برد. همچنین تنسرفلو کلی از انواع این مدل رو مثل random forests, gradient-boosted trees, CART, (Lambda)MART, DART, Extra Trees, greedy global growth, oblique trees, one-side-sampling, … اضافه کرده.
نمونهی کد و تفسیر مدل رو در دو عکس بالا آوردیم.
لینک پست توضیح TF-DF:
https://blog.tensorflow.org/2021/05/introducing-tensorflow-decision-forests.html?m=1
#read
#blog
#tool
@nlp_stuff
یکی از مدلهای معروف و کارا در یادگیری ماشین «جنگل تصمیمگیری» است. همونطور که میدونید، این مدلها تفسیرپذیری بالایی دارند و میتونند روی دیتای عددی وcategorical بدون پیشپردازش کار کنند.
تنسرفلو حالا جنگل تصمیمگیری رو به کتابخونهی خودش اضافه کرده تا بتونید این مدل را راحت آموزش بدید، سرو کنید و تفسیر کنید؛ البته این مدل در کتابخونههای دیگه مثل sklearn وجود داشتند اما حالا با استفاده از TF-DF میتوان از ابزارهای دیگهی تنسرفلو مثل TF-serving و TFX به صورت یکپارچه و راحتتر استفاده کرد و لذت برد. همچنین تنسرفلو کلی از انواع این مدل رو مثل random forests, gradient-boosted trees, CART, (Lambda)MART, DART, Extra Trees, greedy global growth, oblique trees, one-side-sampling, … اضافه کرده.
نمونهی کد و تفسیر مدل رو در دو عکس بالا آوردیم.
لینک پست توضیح TF-DF:
https://blog.tensorflow.org/2021/05/introducing-tensorflow-decision-forests.html?m=1
#read
#blog
#tool
@nlp_stuff
پردازش صوت با speechbrain
اگه دنبال یه ابزاری میگردید که بتونید باهاش راحت کارهای پردازش صوتی بکنید، باید برید سراغ speechbrain. این ابزار کارهای بازشناسی گفتار، بازشناسی گوینده، بهبود صوت، پردازشهای میانی مانند استخراج فیچر و پردازش همزمان چندین میکروفون رو انجا میده. نکته اینه که مدلهایی که استفاده شده کاملا بهروز و در برخی کاربردها حتی state of the art هستند و در برخی دیگه هم عملکرد کاملا رقابتی دارند. از ویژگیهای مهم دیگه این ابزار اینه که مدلهای استفاده شده در این ابزار بر روی هاگینگفیس موجودند. شاید تنها ضعف این ابزار اینه که مدلها کاملا پایتورچی هستند و خبری از تنسورفلو نیست اما با توجه به سادگی کاربرد و همچنین وجود مدلها بر روی هاگینگفیس نباید اصلا نگران استفاده ازش باشید. از دیگر ویژگیهای مثبتش هم اینه که کاملا با GPU دوسته و اگه لازم دارید تا اون رو بر روی دیتاست خودتون آموزش بدید و از GPU استفاده کنید، قطعا مشکلی نخواهید داشت. پیشنهاد میکنیم بر و بچههای صوتی حتما یه نگاهی به این ابزار بهروز بندازند.
لینک گیتهاب:
https://github.com/speechbrain/speechbrain
لینک صفحه رسمی در هاگینگفیس :
https://huggingface.co/speechbrain
#tool
@nlp_stuff
اگه دنبال یه ابزاری میگردید که بتونید باهاش راحت کارهای پردازش صوتی بکنید، باید برید سراغ speechbrain. این ابزار کارهای بازشناسی گفتار، بازشناسی گوینده، بهبود صوت، پردازشهای میانی مانند استخراج فیچر و پردازش همزمان چندین میکروفون رو انجا میده. نکته اینه که مدلهایی که استفاده شده کاملا بهروز و در برخی کاربردها حتی state of the art هستند و در برخی دیگه هم عملکرد کاملا رقابتی دارند. از ویژگیهای مهم دیگه این ابزار اینه که مدلهای استفاده شده در این ابزار بر روی هاگینگفیس موجودند. شاید تنها ضعف این ابزار اینه که مدلها کاملا پایتورچی هستند و خبری از تنسورفلو نیست اما با توجه به سادگی کاربرد و همچنین وجود مدلها بر روی هاگینگفیس نباید اصلا نگران استفاده ازش باشید. از دیگر ویژگیهای مثبتش هم اینه که کاملا با GPU دوسته و اگه لازم دارید تا اون رو بر روی دیتاست خودتون آموزش بدید و از GPU استفاده کنید، قطعا مشکلی نخواهید داشت. پیشنهاد میکنیم بر و بچههای صوتی حتما یه نگاهی به این ابزار بهروز بندازند.
لینک گیتهاب:
https://github.com/speechbrain/speechbrain
لینک صفحه رسمی در هاگینگفیس :
https://huggingface.co/speechbrain
#tool
@nlp_stuff
GitHub
GitHub - speechbrain/speechbrain: A PyTorch-based Speech Toolkit
A PyTorch-based Speech Toolkit. Contribute to speechbrain/speechbrain development by creating an account on GitHub.
کتابخانهی AugLy فیسبوک!
تا حالا خیلی راجع به augmentation، اهمیتش و انواعش پست گذاشتیم؛ مثل این پست و این پست و این پست (اگر لینکاشونو نمیبینید، یعنی تلگرامتون آپدیت نیست یا در نسخه وب دیده نمیشه!)؛ حالا در همین راستا فیسبوک کتابخانهی AugLy رو اوپنسورس کرده.
این کتابخونه از چهار تا زیرکتابخونه برای چهار مودالیتی (متن، صوت، تصویر و فیلم) ساخته شده و همهشون هم interfaceهای مشابهی دارند. فیسبوک کتابخونههای مختلف قبلی رو توی این کتابخونه جمع کرده و یه سری چیزای جدید هم خودش نوشته. توابع جالبی غیر از توابع معمول (کراپ، چرخش و ...) واسه عکس داره؛ مثلا یه عکس رو میگیره و میذاره توی قالب اینستاگرام و بقیهی شبکههای اجتماعی که انگار یه نفر اسکرینشات گرفته و به اشتراک گذاشته و خب این خیلی بهدردبخوره چون ملت اکثرا اینجوری پستهای اینستاگرام و توییتر رو به هم میفرستند. یا روی متن کلی تغییرات متنوع داره که توی تصاویر ضمیمه شده هم مشاهده میکنید. کلا هم این داستان augmentation چه واسه اینکه مدل نسبت به ورودیهای مختلف robust باشه چه از نظر بیزینسی خیلی خوبه؛ مثلا اگر یه کاربر یه ذره یه عکس یا ویدیو یا موسیقی رو تغییر بده و بخواد به اسم خودش آپلود کنه، مشخص میشه. از این کتابخونه در چالش تشخیص دیپ فیک هم استفاده شد که بفهمند مدل کی robustتره.
هنوز داکیومنتیشن کتابخونه کامل نیست و یه سری مثال اولیه برای هر کدوم از مودالیتیها آورده؛ اما توصیه میکنیم جزء پیشروهایی باشید که سراغش میره.
لینک گیت:
https://github.com/facebookresearch/AugLy
لینک بلاگ توضیح کتابخونه:
https://ai.facebook.com/blog/augly-a-new-data-augmentation-library-to-help-build-more-robust-ai-models/
پ.ن.۱. سه تا تصویر ضمیمه شده. ورق بزنید.
پ.ن.۲. لطفا کانال را به بقیه هم معرفی کنید.
#tool
@nlp_stuff
تا حالا خیلی راجع به augmentation، اهمیتش و انواعش پست گذاشتیم؛ مثل این پست و این پست و این پست (اگر لینکاشونو نمیبینید، یعنی تلگرامتون آپدیت نیست یا در نسخه وب دیده نمیشه!)؛ حالا در همین راستا فیسبوک کتابخانهی AugLy رو اوپنسورس کرده.
این کتابخونه از چهار تا زیرکتابخونه برای چهار مودالیتی (متن، صوت، تصویر و فیلم) ساخته شده و همهشون هم interfaceهای مشابهی دارند. فیسبوک کتابخونههای مختلف قبلی رو توی این کتابخونه جمع کرده و یه سری چیزای جدید هم خودش نوشته. توابع جالبی غیر از توابع معمول (کراپ، چرخش و ...) واسه عکس داره؛ مثلا یه عکس رو میگیره و میذاره توی قالب اینستاگرام و بقیهی شبکههای اجتماعی که انگار یه نفر اسکرینشات گرفته و به اشتراک گذاشته و خب این خیلی بهدردبخوره چون ملت اکثرا اینجوری پستهای اینستاگرام و توییتر رو به هم میفرستند. یا روی متن کلی تغییرات متنوع داره که توی تصاویر ضمیمه شده هم مشاهده میکنید. کلا هم این داستان augmentation چه واسه اینکه مدل نسبت به ورودیهای مختلف robust باشه چه از نظر بیزینسی خیلی خوبه؛ مثلا اگر یه کاربر یه ذره یه عکس یا ویدیو یا موسیقی رو تغییر بده و بخواد به اسم خودش آپلود کنه، مشخص میشه. از این کتابخونه در چالش تشخیص دیپ فیک هم استفاده شد که بفهمند مدل کی robustتره.
هنوز داکیومنتیشن کتابخونه کامل نیست و یه سری مثال اولیه برای هر کدوم از مودالیتیها آورده؛ اما توصیه میکنیم جزء پیشروهایی باشید که سراغش میره.
لینک گیت:
https://github.com/facebookresearch/AugLy
لینک بلاگ توضیح کتابخونه:
https://ai.facebook.com/blog/augly-a-new-data-augmentation-library-to-help-build-more-robust-ai-models/
پ.ن.۱. سه تا تصویر ضمیمه شده. ورق بزنید.
پ.ن.۲. لطفا کانال را به بقیه هم معرفی کنید.
#tool
@nlp_stuff
Telegram
stuff
مدل codex در برابر کدزنها!
حدود ده روز پیش بود که ابزار github copilot (اگر ندیدید این جا رو ببینید: https://copilot.github.com) رونمایی شد و موجب گریبان دریدن تعداد زیادی از افراد و به خصوص قشر برنامهنویس شد. همان موقع این سوال ایجاد شد که قضیه فنی پشت copilot چیه و چه قدر قدرت و توانایی داره. حالا یک جمعی از دوستان در open-ai اومدند و مقالهای دادند تا به مانند همیشه حرص و حسادت ما رو برانگیزند. در این مقاله صحبت از مدل زبانی به نام codex کردند و بیان کردند که ابزار copilot نیز بر پایه همین مدل زبانی بنا شده و از اون قدرت میگیره. لازم به ذکر است که در این مقاله صرفا به بررسی کیس آموزش codex روی پایتون پرداختند و در مورد عملکرد بقیه مدلها سخنی به میان نیامده. به طور اجمالی، codex یک مدل زبانی بر پایه معماری GPT با سایز ۱۲ میلیارد پارامتره که بر روی یک دیتاست حامل داک استرینگها و پیادهسازی توابع در زبان پایتون آموزش دیده تا تسکی به نام تولید فانکشن رو یاد بگیره؛ یعنی با گرفتن داک استرینگها بتونه متن تابع رو پیاده کنه (برای این که یک مقیاسی دستتون بیاد روی دیتاستی با حجم ۱۵۹ گیگ با این اوصاف ذکر شده آموزش دیده)
اما در موقع ارزیابی از اونجایی که open-ai منابع و پول زیاد داره و حیفه که ازشون استفاده نکنه، اومده روی کدهای خروجی unit test انجام داده تا بتونند بفهمند قدرت codex در چه حده و چند درصد برنامههایی که مینویسه صحیح و درست عمل میکنند. گل مطلب اینه که در موقعی که یک سمپل از مدل codex گرفته بشه این مدل ۳۷.۷ درصد از توابع رو درست پیاده سازی میکرده (عدد حیرت انگیزیه) و هنگامی که به جای یک سمپل صد سمپل از codex بگیریم، این مدل ۷۷.۵ درصد از توابع رو میتونسته درست پیاده کنه (به طور خیلی ساده شده بخوایم بگیم در ۷۷.۵ درصد مواقع یکی از سمپلها بوده که جواب درست بوده!)
در ادامه این مقاله هم از اونجا که همچنین کلی دلار باقی مونده بوده کلی اکسپریمنت و یونیت تست انجام دادند تا رفتار codex رو بررسی کنند. در آخر هم بخشی رو به خواباندن هایپ جوگیرها تخصیص دادند و از معایب و موانع و خطرات استفاده از codex در صنعت و حل مسائل دنیای واقعی صحبت کردند و کلا هنوز کلی راه تا رویای پیادهسازی اتومات برنامهها و اخراج برنامهنویسها مونده ولی نشدنی نیست...
لینک مقاله:
https://arxiv.org/abs/2107.03374
#paper
#read
#tool
@nlp_stuff
حدود ده روز پیش بود که ابزار github copilot (اگر ندیدید این جا رو ببینید: https://copilot.github.com) رونمایی شد و موجب گریبان دریدن تعداد زیادی از افراد و به خصوص قشر برنامهنویس شد. همان موقع این سوال ایجاد شد که قضیه فنی پشت copilot چیه و چه قدر قدرت و توانایی داره. حالا یک جمعی از دوستان در open-ai اومدند و مقالهای دادند تا به مانند همیشه حرص و حسادت ما رو برانگیزند. در این مقاله صحبت از مدل زبانی به نام codex کردند و بیان کردند که ابزار copilot نیز بر پایه همین مدل زبانی بنا شده و از اون قدرت میگیره. لازم به ذکر است که در این مقاله صرفا به بررسی کیس آموزش codex روی پایتون پرداختند و در مورد عملکرد بقیه مدلها سخنی به میان نیامده. به طور اجمالی، codex یک مدل زبانی بر پایه معماری GPT با سایز ۱۲ میلیارد پارامتره که بر روی یک دیتاست حامل داک استرینگها و پیادهسازی توابع در زبان پایتون آموزش دیده تا تسکی به نام تولید فانکشن رو یاد بگیره؛ یعنی با گرفتن داک استرینگها بتونه متن تابع رو پیاده کنه (برای این که یک مقیاسی دستتون بیاد روی دیتاستی با حجم ۱۵۹ گیگ با این اوصاف ذکر شده آموزش دیده)
اما در موقع ارزیابی از اونجایی که open-ai منابع و پول زیاد داره و حیفه که ازشون استفاده نکنه، اومده روی کدهای خروجی unit test انجام داده تا بتونند بفهمند قدرت codex در چه حده و چند درصد برنامههایی که مینویسه صحیح و درست عمل میکنند. گل مطلب اینه که در موقعی که یک سمپل از مدل codex گرفته بشه این مدل ۳۷.۷ درصد از توابع رو درست پیاده سازی میکرده (عدد حیرت انگیزیه) و هنگامی که به جای یک سمپل صد سمپل از codex بگیریم، این مدل ۷۷.۵ درصد از توابع رو میتونسته درست پیاده کنه (به طور خیلی ساده شده بخوایم بگیم در ۷۷.۵ درصد مواقع یکی از سمپلها بوده که جواب درست بوده!)
در ادامه این مقاله هم از اونجا که همچنین کلی دلار باقی مونده بوده کلی اکسپریمنت و یونیت تست انجام دادند تا رفتار codex رو بررسی کنند. در آخر هم بخشی رو به خواباندن هایپ جوگیرها تخصیص دادند و از معایب و موانع و خطرات استفاده از codex در صنعت و حل مسائل دنیای واقعی صحبت کردند و کلا هنوز کلی راه تا رویای پیادهسازی اتومات برنامهها و اخراج برنامهنویسها مونده ولی نشدنی نیست...
لینک مقاله:
https://arxiv.org/abs/2107.03374
#paper
#read
#tool
@nlp_stuff
Telegram
stuff
مستندسازی کیفیت عملکرد مدلهای زبانی فارسی
بسیاری از مواقع مقاله یا مدلی رو دیدید که نویسنده ادعا کرده با مدل ابداعی خودش به فلان دقت روی یک وظیفه زبان فارسی رسیده، اما در عین حال کد و مستندی رو برای این ادعاش منتشر نکرده. بچههای تیم هوش مصنوعی شرکت مفید کدهای تمیزی زدند که ملت بتونند راحت مدلهای مختلف ارائه شده برای وظایف زبان فارسی رو روی دیتاستهای مختلف تست بگیرند و ارزیابی کنند. نکته مهمتر اینه که کدهاشون رو روی گیت سخاوتمدانه به اشتراک گذاشتند؛ پس بهشون استار بدید که انرژی بگیرند و بقیهی کدهاشونم بگذارند. :)
لینک ریپو:
https://github.com/Mofid-AI/persian-nlp-benchmark
#tool
#irani
@nlp_stuff
بسیاری از مواقع مقاله یا مدلی رو دیدید که نویسنده ادعا کرده با مدل ابداعی خودش به فلان دقت روی یک وظیفه زبان فارسی رسیده، اما در عین حال کد و مستندی رو برای این ادعاش منتشر نکرده. بچههای تیم هوش مصنوعی شرکت مفید کدهای تمیزی زدند که ملت بتونند راحت مدلهای مختلف ارائه شده برای وظایف زبان فارسی رو روی دیتاستهای مختلف تست بگیرند و ارزیابی کنند. نکته مهمتر اینه که کدهاشون رو روی گیت سخاوتمدانه به اشتراک گذاشتند؛ پس بهشون استار بدید که انرژی بگیرند و بقیهی کدهاشونم بگذارند. :)
لینک ریپو:
https://github.com/Mofid-AI/persian-nlp-benchmark
#tool
#irani
@nlp_stuff
GitHub
GitHub - Mofid-AI/persian-nlp-benchmark: A benchmark for evaluation and comparison of various NLP tasks in Persian language.
A benchmark for evaluation and comparison of various NLP tasks in Persian language. - Mofid-AI/persian-nlp-benchmark
مدلهای دستهبندی صوتی در هاگینگفیس
قبلا در دو پست این [https://yangx.top/nlp_stuff/152] و این [https://yangx.top/nlp_stuff/184] راجع به مدل wave2vec و ابزار speechbrain صحبت کرده بودیم.
حالا کمکم زمان برداشت فرا رسیده و ملت مدلهای کاربردی روی این مدلها و ابزارهای پایه دارند تولید میکنند و روی هاگینگفیس هم میگذارند.
به تسکهایی مثل تشخیص زبان، استخراج کلمات کلیدی، تشخیص احساسات، تشخیص گوینده و … از روی صدای ورودی، دستهبندی صوتی گفته میشه.
لینک کل مدلهای دستهبندی صوتی موجود روی هاگینگ فیس:
https://huggingface.co/models?pipeline_tag=audio-classification
لینک مدل تشخیص زبان (فارسی هم داره) با Speechbrain:
https://huggingface.co/speechbrain/lang-id-commonlanguage_ecapa
#tool
#link
@nlp_stuff
قبلا در دو پست این [https://yangx.top/nlp_stuff/152] و این [https://yangx.top/nlp_stuff/184] راجع به مدل wave2vec و ابزار speechbrain صحبت کرده بودیم.
حالا کمکم زمان برداشت فرا رسیده و ملت مدلهای کاربردی روی این مدلها و ابزارهای پایه دارند تولید میکنند و روی هاگینگفیس هم میگذارند.
به تسکهایی مثل تشخیص زبان، استخراج کلمات کلیدی، تشخیص احساسات، تشخیص گوینده و … از روی صدای ورودی، دستهبندی صوتی گفته میشه.
لینک کل مدلهای دستهبندی صوتی موجود روی هاگینگ فیس:
https://huggingface.co/models?pipeline_tag=audio-classification
لینک مدل تشخیص زبان (فارسی هم داره) با Speechbrain:
https://huggingface.co/speechbrain/lang-id-commonlanguage_ecapa
#tool
#link
@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
مدلهای document parsing در هاگینگفیس
دو مدل LayoutLMv2 و LayoutXLM از مایکروسافت برای پارس کردن تصاویر متنی به هاگینگ فیس اضافه شده و دمویی هم در لینک زیر براشون قرار داده شده که میتونید امتحان کنید. به این مدلها مولتیمودال بین متن و لایوت و تصویر گفته میشه. این مدلها کلمههای داخل عکس را یکی از تگهای مثل QUESTION/ANSWER/HEADER/OTHER میزنند و یعنی دارند کل جدول رو براتون پارس میکنند که باعث میشه خیلی راحتتر بتونید با مقادیر جدول کار کنید.
مدل LayoutXLM روی ۵۳ تا زبون (از جمله فارسی) پیشآموزش داده شده.
- دموی مدل LayoutLMv2:
https://huggingface.co/spaces/nielsr/LayoutLMv2-FUNSD
- لینکهای مقاله و هاگینگفیس مدل LayoutXLM:
https://huggingface.co/microsoft/layoutxlm-base
https://arxiv.org/abs/2104.08836
- لینکهای مقاله و هاگینگفیس مدل LayoutLMv2:
https://huggingface.co/microsoft/layoutlmv2-base-uncased
https://arxiv.org/abs/2012.14740
#tool
#link
@nlp_stuff
دو مدل LayoutLMv2 و LayoutXLM از مایکروسافت برای پارس کردن تصاویر متنی به هاگینگ فیس اضافه شده و دمویی هم در لینک زیر براشون قرار داده شده که میتونید امتحان کنید. به این مدلها مولتیمودال بین متن و لایوت و تصویر گفته میشه. این مدلها کلمههای داخل عکس را یکی از تگهای مثل QUESTION/ANSWER/HEADER/OTHER میزنند و یعنی دارند کل جدول رو براتون پارس میکنند که باعث میشه خیلی راحتتر بتونید با مقادیر جدول کار کنید.
مدل LayoutXLM روی ۵۳ تا زبون (از جمله فارسی) پیشآموزش داده شده.
- دموی مدل LayoutLMv2:
https://huggingface.co/spaces/nielsr/LayoutLMv2-FUNSD
- لینکهای مقاله و هاگینگفیس مدل LayoutXLM:
https://huggingface.co/microsoft/layoutxlm-base
https://arxiv.org/abs/2104.08836
- لینکهای مقاله و هاگینگفیس مدل LayoutLMv2:
https://huggingface.co/microsoft/layoutlmv2-base-uncased
https://arxiv.org/abs/2012.14740
#tool
#link
@nlp_stuff