مخزن نوتبوکهای متنوع NLP
در اینجا بیش از ۲۰۰ نوتبوک گردآوری شدهاند که مسائل مختلفی در حوزه NLP رو (از نحوه فاین تیونکردن bert و gpt گرفته تا استفاده از doc2vec و fasttext) پوشش دادهاند. میتونه منبع خیلی خوبی برای بازیکردن و دستکاری کردن و در نهایت آموزش و تمرین کد زدن برای مسائل مختلف nlp با استفاده از مدلهای مختلف باشه.
https://notebooks.quantumstat.com/
#link
@nlp_stuff
در اینجا بیش از ۲۰۰ نوتبوک گردآوری شدهاند که مسائل مختلفی در حوزه NLP رو (از نحوه فاین تیونکردن bert و gpt گرفته تا استفاده از doc2vec و fasttext) پوشش دادهاند. میتونه منبع خیلی خوبی برای بازیکردن و دستکاری کردن و در نهایت آموزش و تمرین کد زدن برای مسائل مختلف nlp با استفاده از مدلهای مختلف باشه.
https://notebooks.quantumstat.com/
#link
@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
دیتای خودت را بکش!
این ابزار به شما اجازه میده که دیتای خودتون رو بکشید و ازش خروجی json یا csv بگیرید. تازه ازش میتونید در جوپیتر نوتبوک هم استفاده کنید. این ابزار میتونه در کارهای ریسرچی و آموزشی، سرعت و کیفیت کارتون رو بالا ببره.
باحاله واقعا.
لینک دمو:
https://calmcode.io/labs/drawdata.html
گیت:
https://github.com/koaning/drawdata
#link
@nlp_stuff
این ابزار به شما اجازه میده که دیتای خودتون رو بکشید و ازش خروجی json یا csv بگیرید. تازه ازش میتونید در جوپیتر نوتبوک هم استفاده کنید. این ابزار میتونه در کارهای ریسرچی و آموزشی، سرعت و کیفیت کارتون رو بالا ببره.
باحاله واقعا.
لینک دمو:
https://calmcode.io/labs/drawdata.html
گیت:
https://github.com/koaning/drawdata
#link
@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
اضافه شدن مدلهای تصویری به هاگینگ فیس
هاگینگ فیس دیروز طی آخرین ریلیز کتابخونه ترنسفورمرز مدلهای ViT و CLIP و DeiT رو بهش اضافه کرده. همانطور که میدونید این سه مدل، مدلهای ترنسفورمری هستند که مخصوص پردازش تصویر هستند. حالا هاگینگفیس علاوه بر رشد کمی مدلهای مورد پیشتیبانیاش داره سعی مودالهای دیگه رو هم پوشش بده (اگه یادتون باشه ماه قبل هم چند تا مدل ترنسفورمری صوتی اضافه کرده بودند). مثل مدلهای متنی و صوتی هم که قبلا رو سایتشون امکان تست و دمو آنلاین گذاشته بودند، اینجا هم واسه این مدل های تصویری این امکان رو گذاشتند که شما با آپلود تصویر عملکرد مدلهای ترنسفورمری تصویری رو امتحان کنید.
خلاصه الان دیگه میتونید با ترنسفورمرز برید و در حوزههای متن و تصویر و صوت صفا کنید.
لینک پیج مدل ViT:
https://huggingface.co/google/vit-base-patch16-224
لینک توییت اضافه شدن این مدلها:
https://twitter.com/huggingface/status/1392503426978881536
#link
@nlp_stuff
هاگینگ فیس دیروز طی آخرین ریلیز کتابخونه ترنسفورمرز مدلهای ViT و CLIP و DeiT رو بهش اضافه کرده. همانطور که میدونید این سه مدل، مدلهای ترنسفورمری هستند که مخصوص پردازش تصویر هستند. حالا هاگینگفیس علاوه بر رشد کمی مدلهای مورد پیشتیبانیاش داره سعی مودالهای دیگه رو هم پوشش بده (اگه یادتون باشه ماه قبل هم چند تا مدل ترنسفورمری صوتی اضافه کرده بودند). مثل مدلهای متنی و صوتی هم که قبلا رو سایتشون امکان تست و دمو آنلاین گذاشته بودند، اینجا هم واسه این مدل های تصویری این امکان رو گذاشتند که شما با آپلود تصویر عملکرد مدلهای ترنسفورمری تصویری رو امتحان کنید.
خلاصه الان دیگه میتونید با ترنسفورمرز برید و در حوزههای متن و تصویر و صوت صفا کنید.
لینک پیج مدل ViT:
https://huggingface.co/google/vit-base-patch16-224
لینک توییت اضافه شدن این مدلها:
https://twitter.com/huggingface/status/1392503426978881536
#link
@nlp_stuff
بخش Dataset Loaders از سایت paperswithcode!
سایت paperswithcode (قبلا این پست و این پست و این پست را دربارهاش گذاشته بودیم) که بخش دیتاستها را قبلا به سایتش اضافه کرده بود، حالا جدیدا بخشی رو اضافه کرده که برای هر دیتاست، کد لود کردنش رو با کتابخونههای مختلف مثل huggingface datasets, TensorFlow datasets, OpenMMLab, AllenNLP آورده؛ خیلی کاربردی و یک جا.
لینک یک دیتاست مثال:
https://paperswithcode.com/dataset/sst
#link
@nlp_stuff
سایت paperswithcode (قبلا این پست و این پست و این پست را دربارهاش گذاشته بودیم) که بخش دیتاستها را قبلا به سایتش اضافه کرده بود، حالا جدیدا بخشی رو اضافه کرده که برای هر دیتاست، کد لود کردنش رو با کتابخونههای مختلف مثل huggingface datasets, TensorFlow datasets, OpenMMLab, AllenNLP آورده؛ خیلی کاربردی و یک جا.
لینک یک دیتاست مثال:
https://paperswithcode.com/dataset/sst
#link
@nlp_stuff
یک هوشمند مسئول!
اگه در یه جایی از این دنیا مشغول طراحی یه سیستم مبتنی بر AI هستید، باید توجهتون رو به این نکته جلب کنم که طراحی یه سیستم مبتنی بر AI مانند یه سیستم نرمافزاری در دنیای کامپیوتر نیازمند best practice است. ینی یه سری زوج مرتب از چالشها و راهحلهایی که افراد قبل از شما با اونها مواجه شدند و راهحل ارائه شده براش به مقدار خوبی تست شده است. به خاطر همین به عنوان طراح سیستمهای مبتنی بر AI خوبه که با اونها آشنا بشید. برای آگاهی از این practiceها هم چه جایی بهتر از گوگل! بچههای گوگل کلی زحمت کشیدند و یه مفهومی رو به نام Responsible AI توسعه دادند و براش یه بلاگ درست کردند که در این بلاگ به Best Practice های حوزه AI اشاره شده. همچنین ابزارها و راهحلهایی که گوگل برای غلبه بر این چالشها ارائه داده نیز در این بلاگ معرفی شدند. مثلا مسالهای مانند fairness در حوزه AI کمکم داره داغ میشه. وقتی شما مثلا میخواید یه سیستم credit scoring تولید کنید قطعا نتایج این سیسیتم میتونه بر زندگی خیلی از آدمها تاثیر بذاره؛ پس مهمه که اگه این سیستم خطایی هم داره این خطا بین همه اقشار مختلف جامعه به طور منصفانهای پخش بشه. دنیای امروز پر از biasهای ذهنی است که بازتابش در دیتاهای موجود خودش رو نشون میده و عملکرد منصفانه سیستمهای مبتنی بر AI رو تحت تاثیر قرار میده. مثلا ممکنه نسبت به سیاهپوستا خطای بیشتری در تخصیص امتیاز بالا برای سیستم بانکی داشته باشه یا مثلا تفسیرپذیری مدلهای مبتنی بر یادگیری عمیق هم از مسایلی هست که یک سیستم هوشمند مسوول باید نسبت به اون پاسخگو باشه. اگه یه سیستمی دارید طراحی میکنید که دستیار پزشکان در تشخیص سرطان هست باید برای پزشک متخصص توجیه داشته باشه که چرا داره یه نمونه رو سرطان تشخیص میده و چرا دیگری رو سرطان تشخیص نمیده. گوگل برای رعایت هرچه بهتر و راحتتر این practiceها ابزارهای مختلفی توسعه داده که در همین بلاگ به اون اشاره شده و به عنوان یکی از پایهایترین و اساسیترین ابزارها روزبهروز داره ابزار TFX گوگل (پست https://yangx.top/nlp_stuff/157 رو ببینید) خودش رو بیشتر نشون میده. به خاطر همین توصیه میکنیم که در این دریایی که گوگل از practiceهاش فراهم کرده تنی به آب بزنید.
لینک بلاگ:
https://ai.google/responsibilities/responsible-ai-practices/
اگر هم خیلی دنبال مطلبهای تیتروار میگردید و آبتنی دوست ندارید، سراغ این قسمت از این بلاگ برید که در قالب ۴۳ قانون، مسیر توسعه یک سیستم مبتنی بر AI رو براتون ترسیم کرده:
https://developers.google.com/machine-learning/guides/rules-of-ml
#read
#blog
#link
پ.ن.۱: در معرفی کانال به بقیه کوشا باشید :)
پ.ن.۲: لینک دوم رو با تحریمشکن باز کنید.
@nlp_stuff
اگه در یه جایی از این دنیا مشغول طراحی یه سیستم مبتنی بر AI هستید، باید توجهتون رو به این نکته جلب کنم که طراحی یه سیستم مبتنی بر AI مانند یه سیستم نرمافزاری در دنیای کامپیوتر نیازمند best practice است. ینی یه سری زوج مرتب از چالشها و راهحلهایی که افراد قبل از شما با اونها مواجه شدند و راهحل ارائه شده براش به مقدار خوبی تست شده است. به خاطر همین به عنوان طراح سیستمهای مبتنی بر AI خوبه که با اونها آشنا بشید. برای آگاهی از این practiceها هم چه جایی بهتر از گوگل! بچههای گوگل کلی زحمت کشیدند و یه مفهومی رو به نام Responsible AI توسعه دادند و براش یه بلاگ درست کردند که در این بلاگ به Best Practice های حوزه AI اشاره شده. همچنین ابزارها و راهحلهایی که گوگل برای غلبه بر این چالشها ارائه داده نیز در این بلاگ معرفی شدند. مثلا مسالهای مانند fairness در حوزه AI کمکم داره داغ میشه. وقتی شما مثلا میخواید یه سیستم credit scoring تولید کنید قطعا نتایج این سیسیتم میتونه بر زندگی خیلی از آدمها تاثیر بذاره؛ پس مهمه که اگه این سیستم خطایی هم داره این خطا بین همه اقشار مختلف جامعه به طور منصفانهای پخش بشه. دنیای امروز پر از biasهای ذهنی است که بازتابش در دیتاهای موجود خودش رو نشون میده و عملکرد منصفانه سیستمهای مبتنی بر AI رو تحت تاثیر قرار میده. مثلا ممکنه نسبت به سیاهپوستا خطای بیشتری در تخصیص امتیاز بالا برای سیستم بانکی داشته باشه یا مثلا تفسیرپذیری مدلهای مبتنی بر یادگیری عمیق هم از مسایلی هست که یک سیستم هوشمند مسوول باید نسبت به اون پاسخگو باشه. اگه یه سیستمی دارید طراحی میکنید که دستیار پزشکان در تشخیص سرطان هست باید برای پزشک متخصص توجیه داشته باشه که چرا داره یه نمونه رو سرطان تشخیص میده و چرا دیگری رو سرطان تشخیص نمیده. گوگل برای رعایت هرچه بهتر و راحتتر این practiceها ابزارهای مختلفی توسعه داده که در همین بلاگ به اون اشاره شده و به عنوان یکی از پایهایترین و اساسیترین ابزارها روزبهروز داره ابزار TFX گوگل (پست https://yangx.top/nlp_stuff/157 رو ببینید) خودش رو بیشتر نشون میده. به خاطر همین توصیه میکنیم که در این دریایی که گوگل از practiceهاش فراهم کرده تنی به آب بزنید.
لینک بلاگ:
https://ai.google/responsibilities/responsible-ai-practices/
اگر هم خیلی دنبال مطلبهای تیتروار میگردید و آبتنی دوست ندارید، سراغ این قسمت از این بلاگ برید که در قالب ۴۳ قانون، مسیر توسعه یک سیستم مبتنی بر AI رو براتون ترسیم کرده:
https://developers.google.com/machine-learning/guides/rules-of-ml
#read
#blog
#link
پ.ن.۱: در معرفی کانال به بقیه کوشا باشید :)
پ.ن.۲: لینک دوم رو با تحریمشکن باز کنید.
@nlp_stuff
ai.google
Google AI -
AI Principles
AI Principles
A guiding framework for our responsible development and use of AI, alongside transparency and accountability in our AI development process.
معرفی هفتهنامهی آلفاسیگنال
داداشامون زحمت کشیدند یه سایت زدند که به صورت هفتگی مطالب پرطرفدار در زمینه هوش مصنوعی رو با کمک هوش مصنوعی (همون کراول و شمارش خودمون!) گلچین میکنه و بهتون ایمیل کنه که قشنگ سر فرصت بشینید ازشون لذت ببرید. بخشهای مختلفی مثل Publications, News, Repos, Tweets داره.
ما خودمون اکثر مطالبی که معرفی کرده، در کانال گذاشتیم و میگذاریم؛ ولی خب همه دوست دارند مستقل و قائم بالذات باشند دیگه!!
لینک سایت:
https://alphasignal.ai/
پ.ن. با تشکر از آقای محمدحسین بهاری بابت معرفی این سایت.
#link
@nlp_stuff
داداشامون زحمت کشیدند یه سایت زدند که به صورت هفتگی مطالب پرطرفدار در زمینه هوش مصنوعی رو با کمک هوش مصنوعی (همون کراول و شمارش خودمون!) گلچین میکنه و بهتون ایمیل کنه که قشنگ سر فرصت بشینید ازشون لذت ببرید. بخشهای مختلفی مثل Publications, News, Repos, Tweets داره.
ما خودمون اکثر مطالبی که معرفی کرده، در کانال گذاشتیم و میگذاریم؛ ولی خب همه دوست دارند مستقل و قائم بالذات باشند دیگه!!
لینک سایت:
https://alphasignal.ai/
پ.ن. با تشکر از آقای محمدحسین بهاری بابت معرفی این سایت.
#link
@nlp_stuff
alphasignal.ai
The Best of Machine Learning. Summarized by AI.
مجموعه دادهی FarsTail
مجموعه دادهی FarsTail، مجموعه دادهی فارسی جمع آوری شده برای مسئلهی استنتاج زبان طبیعی (Natural Language Inference) توسط آزمایشگاه دادهکاوی و یادگیری ماشین دانشگاه قم است. تسک NLI بدین صورت است که مدل، دو جمله ورودی را میگیرد و در خروجی میگوید با توجه به جملهی اول، جملهی دوم درست یا غلط یا خنثی است.
در تصویر توضیحات مربوط به روند جمعآوری آن (روشی شبیه به سناریوی استفاده شده در مجموعه دادهی انگلیسی SciTail) آورده شده است.
البته با اینکه از نظر اندازه، این دیتاست (۱۰ هزار جفت جمله) در مقایسه با دیتاستهای معروف انگلیسی همچون SNLI (۵۷۰ هزار جفت جمله) خیلی کوچکتره اما شبیه دادگان SciTail (۲۷ هزار جفت جمله) با کیفیته و در هر صورت دمشون گرم که این کار رو شروع کردند و مهمتر اینکه رایگان منتشرش کردند.
لینک مقاله:
https://arxiv.org/abs/2009.08820
لینک دانلود مجموعه داده:
https://github.com/dml-qom/FarsTail
پ.ن. لطفا بهشون استار بدید که انرژی بگیرند.
#link
#irani
#dataset
@nlp_stuff
مجموعه دادهی FarsTail، مجموعه دادهی فارسی جمع آوری شده برای مسئلهی استنتاج زبان طبیعی (Natural Language Inference) توسط آزمایشگاه دادهکاوی و یادگیری ماشین دانشگاه قم است. تسک NLI بدین صورت است که مدل، دو جمله ورودی را میگیرد و در خروجی میگوید با توجه به جملهی اول، جملهی دوم درست یا غلط یا خنثی است.
در تصویر توضیحات مربوط به روند جمعآوری آن (روشی شبیه به سناریوی استفاده شده در مجموعه دادهی انگلیسی SciTail) آورده شده است.
البته با اینکه از نظر اندازه، این دیتاست (۱۰ هزار جفت جمله) در مقایسه با دیتاستهای معروف انگلیسی همچون SNLI (۵۷۰ هزار جفت جمله) خیلی کوچکتره اما شبیه دادگان SciTail (۲۷ هزار جفت جمله) با کیفیته و در هر صورت دمشون گرم که این کار رو شروع کردند و مهمتر اینکه رایگان منتشرش کردند.
لینک مقاله:
https://arxiv.org/abs/2009.08820
لینک دانلود مجموعه داده:
https://github.com/dml-qom/FarsTail
پ.ن. لطفا بهشون استار بدید که انرژی بگیرند.
#link
#irani
#dataset
@nlp_stuff
جمعآوری دادگان دستنوشتهی برخط فارسی
همین اولش بگیم که میتونید با هر امکاناتی در این جمعآوری دادگان مشارکت کنید.
دادگان آفلاین دستخط فارسی خیلی تا الان جمعآوری شده که کاربر روی کاغذ مینویسه و بعد نوشتهاش اسکن میشه. اما این دیتاست که یکی از دانشجویان امیرکبیر واسه تزش داره جمع میکنه، آنلاینه و برای اولین بار داره جمعآوری میشه.
این دیتاست اینجوریه که کاربر در صفحه دیجیتالی (گوشی، لپتاپ و…) مینویسه، بعد این نتیجهاش فقط یه سری پیکسل عکس نیست و اطلاعات زمانی و سرعت حرکت دست برای کشیدن حروف مختلف و حتی اطلاعات فشار دست هم میتونه داشته باشه. کارهای تحقیقاتی مثل تبدیل دستنوشته به نوشتار و تشخیص جعلشدگی امضا روی این دیتاست قابل انجامه.
پ.ن. در ضمن این داداشمون قول داده که صد در صد دیتای جمعآوری شده را منتشر بکنه؛ پس لطفا دست به دست کنید که دور هم یه دیتاست جمع کنیم.
لینک سایت:
FarsiHandwriting.ir
#link
#irani
#dataset
@nlp_stuff
همین اولش بگیم که میتونید با هر امکاناتی در این جمعآوری دادگان مشارکت کنید.
دادگان آفلاین دستخط فارسی خیلی تا الان جمعآوری شده که کاربر روی کاغذ مینویسه و بعد نوشتهاش اسکن میشه. اما این دیتاست که یکی از دانشجویان امیرکبیر واسه تزش داره جمع میکنه، آنلاینه و برای اولین بار داره جمعآوری میشه.
این دیتاست اینجوریه که کاربر در صفحه دیجیتالی (گوشی، لپتاپ و…) مینویسه، بعد این نتیجهاش فقط یه سری پیکسل عکس نیست و اطلاعات زمانی و سرعت حرکت دست برای کشیدن حروف مختلف و حتی اطلاعات فشار دست هم میتونه داشته باشه. کارهای تحقیقاتی مثل تبدیل دستنوشته به نوشتار و تشخیص جعلشدگی امضا روی این دیتاست قابل انجامه.
پ.ن. در ضمن این داداشمون قول داده که صد در صد دیتای جمعآوری شده را منتشر بکنه؛ پس لطفا دست به دست کنید که دور هم یه دیتاست جمع کنیم.
لینک سایت:
FarsiHandwriting.ir
#link
#irani
#dataset
@nlp_stuff
دادگان NLI مولتی مودال گوگل!
گوگل در ACL2021 دادگان جدید و جالبی منتشر کرده به نام Recognizing Multimodal Entailment!
قبلا راجع به NLI در این پست [https://yangx.top/nlp_stuff/201] صحبت کردیم؛ اما این دادگان فرق میکنه چون ترکیبی پرروی متن و عکسه برای این تسکه.
داستان اینه که آیا یک جفت عکس و متن، یک جفت عکس و متن دیگه رو نتیجه میده (Implies) یا با هم در تضاد هستند (Contradictory) یا نسبت به هم خنثا هستند (NoEntailment).
این عکسه رو که ضمیمه شده ببینید! بحث سر اینه که با متن و تصویر گفته بشه که زمین گرده یا نه. مثلا متن سمت چپ بالا میگه که تصویر زمین از فضا اینه و خب در عکسش هم زمین گرده پس نظرش اینه که زمین گرده؛ اما متن سمت راست بالا میگه زمین واقعی این شکلیه و عکسش هم میگه زمینش تخته پس نظرش اینه که زمین تخته؛ پس مشخصا این دو جفت متن و تصویر با هم مخالف هستند. دقت کردید؟ با متن یا عکس تنها نمیشد تشخیص داد داستان چجوریه ولی با جفتش میشد این نظر را مقایسه کرد.
یا مثلا متن پایین سمت چپ میگه زمین این شکلی نیست و تصویرش میگه زمین تخته . پس اون جفت بالا چپ، جفت پایین چپ رو نتیجه میده چون بالایی میگه زمین گرده و پایینی میگه قطعا زمین تخت نیست.
و در نهایت دو جفت پایین چیزی رو از هم تایید یا رد نمیکنند چون جفتشون فقط میگن زمین این شکلی نیست.
این مجموعه دادگان از توئیتر جمع آوری شده و حدود ۱۵۰۰ جفت آدرس توئیت و یک ستونه که لیبل قضیهست.
https://github.com/google-research-datasets/recognizing-multimodal-entailment
#link
#dataset
@nlp_stuff
گوگل در ACL2021 دادگان جدید و جالبی منتشر کرده به نام Recognizing Multimodal Entailment!
قبلا راجع به NLI در این پست [https://yangx.top/nlp_stuff/201] صحبت کردیم؛ اما این دادگان فرق میکنه چون ترکیبی پرروی متن و عکسه برای این تسکه.
داستان اینه که آیا یک جفت عکس و متن، یک جفت عکس و متن دیگه رو نتیجه میده (Implies) یا با هم در تضاد هستند (Contradictory) یا نسبت به هم خنثا هستند (NoEntailment).
این عکسه رو که ضمیمه شده ببینید! بحث سر اینه که با متن و تصویر گفته بشه که زمین گرده یا نه. مثلا متن سمت چپ بالا میگه که تصویر زمین از فضا اینه و خب در عکسش هم زمین گرده پس نظرش اینه که زمین گرده؛ اما متن سمت راست بالا میگه زمین واقعی این شکلیه و عکسش هم میگه زمینش تخته پس نظرش اینه که زمین تخته؛ پس مشخصا این دو جفت متن و تصویر با هم مخالف هستند. دقت کردید؟ با متن یا عکس تنها نمیشد تشخیص داد داستان چجوریه ولی با جفتش میشد این نظر را مقایسه کرد.
یا مثلا متن پایین سمت چپ میگه زمین این شکلی نیست و تصویرش میگه زمین تخته . پس اون جفت بالا چپ، جفت پایین چپ رو نتیجه میده چون بالایی میگه زمین گرده و پایینی میگه قطعا زمین تخت نیست.
و در نهایت دو جفت پایین چیزی رو از هم تایید یا رد نمیکنند چون جفتشون فقط میگن زمین این شکلی نیست.
این مجموعه دادگان از توئیتر جمع آوری شده و حدود ۱۵۰۰ جفت آدرس توئیت و یک ستونه که لیبل قضیهست.
https://github.com/google-research-datasets/recognizing-multimodal-entailment
#link
#dataset
@nlp_stuff
Telegram
stuff
ارائههای ICML 2021
این لینک حاوی اسلایدها و ویدیوی ارائههای کنفرانس معتبر ICML امساله. میتونید به صورت موضوعی (با استفاده از تب collection) هم ارائهها رو ببینید و لذتشو ببرید.
https://slideslive.com/icml-2021
#link
@nlp_stuff
این لینک حاوی اسلایدها و ویدیوی ارائههای کنفرانس معتبر ICML امساله. میتونید به صورت موضوعی (با استفاده از تب collection) هم ارائهها رو ببینید و لذتشو ببرید.
https://slideslive.com/icml-2021
#link
@nlp_stuff