NLP stuff
4.05K subscribers
147 photos
1 video
2 files
277 links
مطالب خوب و به‌دردبخور در حوزه‌ی هوش مصنوعی و پردازش زبان طبیعی!

شکرشکن شوند همه طوطیان هند
زین قند پارسی که به بنگاله می‌رود

اگر انتقاد، پیشنهاد و یا مطلب مفیدی (لینک، پست و ...) داشتید:
@AliAkbarBadri
@mmsamiei
@MmahdiAghajani
加入频道
مخزن‌ نوتبوک‌های متنوع NLP

در اینجا بیش از ۲۰۰ نوتبوک گرد‌آوری شده‌اند که مسائل مختلفی در حوزه NLP رو (از نحوه فاین تیون‌کردن bert و gpt گرفته تا استفاده از doc2vec و fasttext) پوشش داده‌اند. می‌تونه منبع خیلی خوبی برای بازی‌کردن و دستکاری کردن و در نهایت آموزش و تمرین کد زدن برای مسائل مختلف nlp با استفاده از مدل‌های مختلف باشه.

https://notebooks.quantumstat.com/

#link

@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
دیتای خودت را بکش!

این ابزار به شما اجازه میده که دیتای خودتون رو بکشید و ازش خروجی json یا csv بگیرید. تازه ازش می‌تونید در جوپیتر نوتبوک هم استفاده کنید. این ابزار می‌تونه در کارهای ریسرچی و آموزشی، سرعت و کیفیت کارتون رو بالا ببره.
باحاله واقعا.

لینک‌ دمو:
https://calmcode.io/labs/drawdata.html

گیت:
https://github.com/koaning/drawdata

#link

@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
اضافه شدن مدل‌های تصویری به هاگینگ فیس

هاگینگ فیس دیروز طی آخرین ریلیز کتابخونه ترنسفورمرز مدل‌های ViT و CLIP و DeiT رو بهش اضافه کرده. همانطور که می‌دونید این سه مدل، مدل‌های ترنسفورمری هستند که مخصوص پردازش تصویر هستند. حالا هاگینگ‌فیس علاوه بر رشد کمی مدل‌های مورد پیشتیبانی‌اش داره سعی مودال‌های دیگه رو هم پوشش بده (اگه یادتون باشه ماه قبل هم چند تا مدل ترنسفورمری صوتی اضافه کرده بودند). مثل مدل‌های متنی و صوتی هم که قبلا رو سایتشون امکان تست و دمو آنلاین گذاشته بودند، اینجا هم واسه این مدل های تصویری این امکان رو گذاشتند که شما با آپلود تصویر عملکرد مدل‌های ترنسفورمری تصویری رو امتحان کنید.
خلاصه الان دیگه می‌تونید با ترنسفورمرز برید و در حوزه‌های متن و تصویر و صوت صفا کنید.

لینک پیج مدل ViT:
https://huggingface.co/google/vit-base-patch16-224

لینک توییت اضافه شدن این مدل‌ها:
https://twitter.com/huggingface/status/1392503426978881536

#link

@nlp_stuff
بخش Dataset Loaders از سایت paperswithcode!

سایت paperswithcode (قبلا این پست و این پست و این پست را درباره‌اش گذاشته بودیم) که بخش دیتاست‌ها را قبلا به سایتش اضافه کرده بود، حالا جدیدا بخشی رو اضافه کرده که برای هر دیتاست، کد لود کردنش رو با کتابخونه‌های مختلف مثل huggingface datasets, TensorFlow datasets, OpenMMLab, AllenNLP آورده؛ خیلی کاربردی و یک جا.

لینک یک دیتاست مثال:
https://paperswithcode.com/dataset/sst

#link

@nlp_stuff
یک هوشمند مسئول!

اگه در یه جایی از این دنیا مشغول طراحی یه سیستم مبتنی بر AI هستید، باید توجه‌تون رو به این نکته جلب کنم که طراحی یه سیستم مبتنی بر AI مانند یه سیستم نرم‌افزاری در دنیای کامپیوتر نیازمند best practice است. ینی یه سری زوج مرتب از چالش‌ها و راه‌حل‌هایی که افراد قبل از شما با اون‌ها مواجه شدند و راه‌حل ارائه شده براش به مقدار خوبی تست شده است. به خاطر همین به عنوان طراح سیستم‌های مبتنی بر AI خوبه که با اون‌ها آشنا بشید. برای آگاهی از این practiceها هم چه جایی بهتر از گوگل! بچه‌های گوگل کلی زحمت کشیدند و یه مفهومی رو به نام Responsible AI توسعه دادند و براش یه بلاگ درست کردند که در این بلاگ به Best Practice های حوزه AI اشاره شده. همچنین ابزارها و راه‌حل‌هایی که گوگل برای غلبه بر این چالش‌ها ارائه داده نیز در این بلاگ معرفی شدند. مثلا مساله‌ای مانند fairness در حوزه AI کم‌کم داره داغ میشه. وقتی شما مثلا می‌خواید یه سیستم credit scoring تولید کنید قطعا نتایج این سیسیتم می‌تونه بر زندگی خیلی از آدم‌ها تاثیر بذاره؛ پس مهمه که اگه این سیستم خطایی هم داره این خطا بین همه اقشار مختلف جامعه به طور منصفانه‌ای پخش بشه. دنیای امروز پر از biasهای ذهنی است که بازتابش در دیتاهای موجود خودش رو نشون میده و عملکرد منصفانه سیستم‌های مبتنی بر AI رو تحت تاثیر قرار میده. مثلا ممکنه نسبت به سیاه‌پوستا خطای بیشتری در تخصیص امتیاز بالا برای سیستم بانکی داشته باشه یا مثلا تفسیرپذیری مدل‌های مبتنی بر یادگیری عمیق هم از مسایلی هست که یک سیستم هوشمند مسوول باید نسبت به اون پاسخگو باشه. اگه یه سیستمی دارید طراحی می‌کنید که دستیار پزشکان در تشخیص سرطان هست باید برای پزشک متخصص توجیه داشته باشه که چرا داره یه نمونه رو سرطان تشخیص میده و چرا دیگری رو سرطان تشخیص نمیده. گوگل برای رعایت هرچه بهتر و راحت‌تر این practiceها ابزارهای مختلفی توسعه داده که در همین بلاگ به اون اشاره شده و به عنوان یکی از پایه‌ای‌ترین و اساسی‌ترین ابزار‌ها روز‌به‌روز داره ابزار TFX گوگل (پست https://yangx.top/nlp_stuff/157 رو ببینید) خودش رو بیشتر نشون میده. به خاطر همین توصیه می‌کنیم که در این دریایی که گوگل از practiceهاش فراهم کرده تنی به آب بزنید.

لینک بلاگ:
https://ai.google/responsibilities/responsible-ai-practices/

اگر هم خیلی دنبال مطلب‌های تیتروار می‌گردید و آب‌تنی دوست ندارید، سراغ این قسمت از این بلاگ برید که در قالب ۴۳ قانون، مسیر توسعه یک سیستم مبتنی بر AI رو براتون ترسیم کرده:
https://developers.google.com/machine-learning/guides/rules-of-ml

#read
#blog
#link

پ.ن.۱: در معرفی کانال به بقیه کوشا باشید :)
پ.ن.۲: لینک دوم رو با تحریم‌شکن باز کنید.

@nlp_stuff
معرفی هفته‌نامه‌ی آلفاسیگنال

داداشامون زحمت کشیدند یه سایت زدند که به صورت هفتگی مطالب پرطرفدار در زمینه هوش مصنوعی رو با کمک هوش مصنوعی (همون کراول و شمارش خودمون!) گلچین می‌کنه و بهتون ایمیل کنه که قشنگ سر فرصت بشینید ازشون لذت ببرید. بخش‌های مختلفی مثل Publications, News, Repos, Tweets داره.
ما خودمون اکثر مطالبی که معرفی کرده، در کانال گذاشتیم و می‌گذاریم؛ ولی خب همه دوست دارند مستقل و قائم بالذات باشند دیگه!!

لینک سایت:
https://alphasignal.ai/

پ.ن. با تشکر از آقای محمدحسین بهاری بابت معرفی این سایت.

#link

@nlp_stuff
مجموعه داده‌ی FarsTail

مجموعه داده‌ی FarsTail، مجموعه داده‌ی فارسی جمع آوری شده برای مسئله‌ی استنتاج زبان طبیعی (Natural Language Inference) توسط آزمایشگاه داده‌کاوی و یادگیری ماشین دانشگاه قم است. تسک NLI بدین صورت است که مدل، دو جمله ورودی را می‌گیرد و در خروجی می‌گوید با توجه به جمله‌ی اول، جمله‌ی دوم درست یا غلط یا خنثی است.
در تصویر توضیحات مربوط به روند جمع‌آوری آن (روشی شبیه به سناریوی استفاده شده در مجموعه داده‌ی انگلیسی SciTail) آورده شده است.
البته با اینکه از نظر اندازه، این دیتاست (۱۰ هزار جفت جمله) در مقایسه با دیتاست‌های معروف انگلیسی همچون SNLI (۵۷۰ هزار جفت جمله) خیلی کوچک‌تره اما شبیه دادگان SciTail (۲۷ هزار جفت جمله) با کیفیته و در هر صورت دمشون گرم که این کار رو شروع کردند و مهم‌تر اینکه رایگان منتشرش کردند.

لینک مقاله:
https://arxiv.org/abs/2009.08820

لینک دانلود مجموعه داده:
https://github.com/dml-qom/FarsTail

پ.ن. لطفا بهشون استار بدید که انرژی بگیرند.

#link
#irani
#dataset

@nlp_stuff
جمع‌آوری دادگان دست‌نوشته‌ی برخط فارسی

همین اولش بگیم که می‌تونید با هر امکاناتی در این جمع‌آوری دادگان مشارکت کنید.

دادگان آفلاین دست‌خط فارسی خیلی تا الان جمع‌آوری شده که کاربر روی کاغذ مینویسه و بعد نوشته‌اش اسکن میشه. اما این دیتاست که یکی از دانشجویان امیرکبیر واسه تزش داره جمع می‌کنه، آنلاینه و برای اولین بار داره جمع‌آوری میشه.
این دیتاست اینجوریه که کاربر در صفحه دیجیتالی (گوشی، لپتاپ و…) مینویسه، بعد این نتیجه‌اش فقط یه سری پیکسل عکس نیست و اطلاعات زمانی و سرعت حرکت دست برای کشیدن حروف مختلف و حتی اطلاعات فشار دست هم می‌تونه داشته باشه. کارهای تحقیقاتی مثل تبدیل دست‌نوشته به نوشتار و تشخیص جعل‌شدگی امضا روی این دیتاست قابل انجامه.

پ.ن. در ضمن این داداشمون قول داده که صد در صد دیتای جمع‌آوری شده را منتشر بکنه؛ پس لطفا دست به دست کنید که دور هم یه دیتاست جمع کنیم.

لینک سایت:
FarsiHandwriting.ir

#link
#irani
#dataset

@nlp_stuff
دادگان NLI مولتی مودال گوگل!

گوگل در ACL2021 دادگان جدید و جالبی منتشر کرده به نام Recognizing Multimodal Entailment!
قبلا راجع به NLI در این پست [https://yangx.top/nlp_stuff/201] صحبت کردیم؛ اما این دادگان فرق می‌کنه چون ترکیبی پرروی متن و عکسه برای این تسکه.
داستان اینه که آیا یک جفت عکس و متن، یک جفت عکس و متن دیگه رو نتیجه می‌ده (Implies) یا با هم در تضاد هستند (Contradictory) یا نسبت به هم خنثا هستند (NoEntailment).

این عکسه رو که ضمیمه شده ببینید! بحث سر اینه که با متن و تصویر گفته بشه که زمین گرده یا نه. مثلا متن سمت چپ بالا میگه که تصویر زمین از فضا اینه و خب در عکسش هم زمین گرده پس نظرش اینه که زمین گرده؛ اما متن سمت راست بالا میگه زمین واقعی این شکلیه و عکسش هم میگه زمینش تخته پس نظرش اینه که زمین تخته؛ پس مشخصا این دو جفت متن و تصویر با هم مخالف هستند. دقت کردید؟ با متن یا عکس تنها نمیشد تشخیص داد داستان چجوریه ولی با جفتش میشد این نظر را مقایسه کرد.
یا مثلا متن پایین سمت چپ میگه زمین این شکلی نیست و تصویرش میگه زمین تخته . پس اون جفت بالا چپ، جفت پایین چپ رو نتیجه میده چون بالایی میگه زمین گرده و پایینی میگه قطعا زمین تخت نیست.
و در نهایت دو جفت پایین چیزی رو از هم تایید یا رد نمی‌کنند چون جفتشون فقط میگن زمین این شکلی نیست.

این مجموعه دادگان از توئیتر جمع آوری شده و حدود ۱۵۰۰ جفت آدرس توئیت و یک ستونه که لیبل قضیه‌ست.

https://github.com/google-research-datasets/recognizing-multimodal-entailment

#link
#dataset

@nlp_stuff
ارائه‌های ICML 2021

این لینک حاوی اسلایدها و ویدیوی ارائه‌های کنفرانس معتبر ICML امساله. می‌تونید به صورت موضوعی (با استفاده از تب collection) هم ارائه‌ها رو ببینید و لذتشو ببرید.

https://slideslive.com/icml-2021

#link

@nlp_stuff