دیتاست NLU فارسی
این نوزده نفر اومدند زحمت کشیدند و دیتاست NLU فارسی درست کردند که برای اولین بار بتونیم یک بنچمارک در این زمینه داشته باشیم و مدلها را مقایسه کنیم. سایز بعضی از قسمتهاش مثل پرسش و پاسخ کمه (۵۷۵ تا) اما واقعا شروع خیلی خوبیه. روش مدل خودشون را هم ارائه کردند. این دیتاست شامل ایناست:
Textual Entailment
Query Paraphrasing
Reading Comprehension
Multiple-Choice QA
Machine Translation
Sentiment Analysis
بعضی از ایدهها و منابعشون خیلی خیلی قشنگ بود. وقت و انرژی گذاشتند و لیبل زدند. دمشون گرم.
لینک مقاله و گیتشون در ادامه آوردیم. استار بدید حتما:
https://github.com/persiannlp/parsinlu
https://arxiv.org/pdf/2012.06154.pdf
پ.ن. اگر میخواهید اسمتون بمونه، شروع کنید دیتاست متنی فارسی درست کنید.
#irani
#read
#paper
#dataset
@nlp_stuff
این نوزده نفر اومدند زحمت کشیدند و دیتاست NLU فارسی درست کردند که برای اولین بار بتونیم یک بنچمارک در این زمینه داشته باشیم و مدلها را مقایسه کنیم. سایز بعضی از قسمتهاش مثل پرسش و پاسخ کمه (۵۷۵ تا) اما واقعا شروع خیلی خوبیه. روش مدل خودشون را هم ارائه کردند. این دیتاست شامل ایناست:
Textual Entailment
Query Paraphrasing
Reading Comprehension
Multiple-Choice QA
Machine Translation
Sentiment Analysis
بعضی از ایدهها و منابعشون خیلی خیلی قشنگ بود. وقت و انرژی گذاشتند و لیبل زدند. دمشون گرم.
لینک مقاله و گیتشون در ادامه آوردیم. استار بدید حتما:
https://github.com/persiannlp/parsinlu
https://arxiv.org/pdf/2012.06154.pdf
پ.ن. اگر میخواهید اسمتون بمونه، شروع کنید دیتاست متنی فارسی درست کنید.
#irani
#read
#paper
#dataset
@nlp_stuff
دادگان PersianQA
جمعآوری دادگان برای ایجاد محک بین مدلها یکی از کارهای اساسی و بنایی برای هر مسأله هوشی محسوب میشه. آقای ایوبی و رفقاشون هم اومدن یک دیتاست پرسش و پاسخ فارسی به سبک squad رو با سایز ده هزار جفت پرسش و پاسخ جمع آوری کردهاند و به صورت رایگان (تو کشور ما اینش نکته مهمیه!!) در اختیار عموم قرار دادهاند. با این که شاید حجمش نسبتا کم باشه و یا توش هم ترکیبی از نوشتار رسمی و هم محاورهای باشه ولی در وضعیت فعلی و با توجه به سختی جمع کردن دیتاست، واقعا میتونه به عنوان یک محک و چالش مورد استفاده قرار بگیره.
برای اطلاعات بیشتر میتونین به لینک زیر سر بزنید و با استار بهشون انرژی بدید که این دیتاستشون رو روز به روز خفنتر کنند.
https://github.com/sajjjadayobi/PersianQA
با تشکر از آقای ایوبی بابت معرفی این دیتاست
#irani
#dataset
@nlp_stuff
جمعآوری دادگان برای ایجاد محک بین مدلها یکی از کارهای اساسی و بنایی برای هر مسأله هوشی محسوب میشه. آقای ایوبی و رفقاشون هم اومدن یک دیتاست پرسش و پاسخ فارسی به سبک squad رو با سایز ده هزار جفت پرسش و پاسخ جمع آوری کردهاند و به صورت رایگان (تو کشور ما اینش نکته مهمیه!!) در اختیار عموم قرار دادهاند. با این که شاید حجمش نسبتا کم باشه و یا توش هم ترکیبی از نوشتار رسمی و هم محاورهای باشه ولی در وضعیت فعلی و با توجه به سختی جمع کردن دیتاست، واقعا میتونه به عنوان یک محک و چالش مورد استفاده قرار بگیره.
برای اطلاعات بیشتر میتونین به لینک زیر سر بزنید و با استار بهشون انرژی بدید که این دیتاستشون رو روز به روز خفنتر کنند.
https://github.com/sajjjadayobi/PersianQA
با تشکر از آقای ایوبی بابت معرفی این دیتاست
#irani
#dataset
@nlp_stuff
GitHub
GitHub - sajjjadayobi/PersianQA: Persian (Farsi) Question Answering Dataset (+ Models)
Persian (Farsi) Question Answering Dataset (+ Models) - sajjjadayobi/PersianQA
مجموعه دادهی FarsTail
مجموعه دادهی FarsTail، مجموعه دادهی فارسی جمع آوری شده برای مسئلهی استنتاج زبان طبیعی (Natural Language Inference) توسط آزمایشگاه دادهکاوی و یادگیری ماشین دانشگاه قم است. تسک NLI بدین صورت است که مدل، دو جمله ورودی را میگیرد و در خروجی میگوید با توجه به جملهی اول، جملهی دوم درست یا غلط یا خنثی است.
در تصویر توضیحات مربوط به روند جمعآوری آن (روشی شبیه به سناریوی استفاده شده در مجموعه دادهی انگلیسی SciTail) آورده شده است.
البته با اینکه از نظر اندازه، این دیتاست (۱۰ هزار جفت جمله) در مقایسه با دیتاستهای معروف انگلیسی همچون SNLI (۵۷۰ هزار جفت جمله) خیلی کوچکتره اما شبیه دادگان SciTail (۲۷ هزار جفت جمله) با کیفیته و در هر صورت دمشون گرم که این کار رو شروع کردند و مهمتر اینکه رایگان منتشرش کردند.
لینک مقاله:
https://arxiv.org/abs/2009.08820
لینک دانلود مجموعه داده:
https://github.com/dml-qom/FarsTail
پ.ن. لطفا بهشون استار بدید که انرژی بگیرند.
#link
#irani
#dataset
@nlp_stuff
مجموعه دادهی FarsTail، مجموعه دادهی فارسی جمع آوری شده برای مسئلهی استنتاج زبان طبیعی (Natural Language Inference) توسط آزمایشگاه دادهکاوی و یادگیری ماشین دانشگاه قم است. تسک NLI بدین صورت است که مدل، دو جمله ورودی را میگیرد و در خروجی میگوید با توجه به جملهی اول، جملهی دوم درست یا غلط یا خنثی است.
در تصویر توضیحات مربوط به روند جمعآوری آن (روشی شبیه به سناریوی استفاده شده در مجموعه دادهی انگلیسی SciTail) آورده شده است.
البته با اینکه از نظر اندازه، این دیتاست (۱۰ هزار جفت جمله) در مقایسه با دیتاستهای معروف انگلیسی همچون SNLI (۵۷۰ هزار جفت جمله) خیلی کوچکتره اما شبیه دادگان SciTail (۲۷ هزار جفت جمله) با کیفیته و در هر صورت دمشون گرم که این کار رو شروع کردند و مهمتر اینکه رایگان منتشرش کردند.
لینک مقاله:
https://arxiv.org/abs/2009.08820
لینک دانلود مجموعه داده:
https://github.com/dml-qom/FarsTail
پ.ن. لطفا بهشون استار بدید که انرژی بگیرند.
#link
#irani
#dataset
@nlp_stuff
جمعآوری دادگان دستنوشتهی برخط فارسی
همین اولش بگیم که میتونید با هر امکاناتی در این جمعآوری دادگان مشارکت کنید.
دادگان آفلاین دستخط فارسی خیلی تا الان جمعآوری شده که کاربر روی کاغذ مینویسه و بعد نوشتهاش اسکن میشه. اما این دیتاست که یکی از دانشجویان امیرکبیر واسه تزش داره جمع میکنه، آنلاینه و برای اولین بار داره جمعآوری میشه.
این دیتاست اینجوریه که کاربر در صفحه دیجیتالی (گوشی، لپتاپ و…) مینویسه، بعد این نتیجهاش فقط یه سری پیکسل عکس نیست و اطلاعات زمانی و سرعت حرکت دست برای کشیدن حروف مختلف و حتی اطلاعات فشار دست هم میتونه داشته باشه. کارهای تحقیقاتی مثل تبدیل دستنوشته به نوشتار و تشخیص جعلشدگی امضا روی این دیتاست قابل انجامه.
پ.ن. در ضمن این داداشمون قول داده که صد در صد دیتای جمعآوری شده را منتشر بکنه؛ پس لطفا دست به دست کنید که دور هم یه دیتاست جمع کنیم.
لینک سایت:
FarsiHandwriting.ir
#link
#irani
#dataset
@nlp_stuff
همین اولش بگیم که میتونید با هر امکاناتی در این جمعآوری دادگان مشارکت کنید.
دادگان آفلاین دستخط فارسی خیلی تا الان جمعآوری شده که کاربر روی کاغذ مینویسه و بعد نوشتهاش اسکن میشه. اما این دیتاست که یکی از دانشجویان امیرکبیر واسه تزش داره جمع میکنه، آنلاینه و برای اولین بار داره جمعآوری میشه.
این دیتاست اینجوریه که کاربر در صفحه دیجیتالی (گوشی، لپتاپ و…) مینویسه، بعد این نتیجهاش فقط یه سری پیکسل عکس نیست و اطلاعات زمانی و سرعت حرکت دست برای کشیدن حروف مختلف و حتی اطلاعات فشار دست هم میتونه داشته باشه. کارهای تحقیقاتی مثل تبدیل دستنوشته به نوشتار و تشخیص جعلشدگی امضا روی این دیتاست قابل انجامه.
پ.ن. در ضمن این داداشمون قول داده که صد در صد دیتای جمعآوری شده را منتشر بکنه؛ پس لطفا دست به دست کنید که دور هم یه دیتاست جمع کنیم.
لینک سایت:
FarsiHandwriting.ir
#link
#irani
#dataset
@nlp_stuff
دادگان NLI مولتی مودال گوگل!
گوگل در ACL2021 دادگان جدید و جالبی منتشر کرده به نام Recognizing Multimodal Entailment!
قبلا راجع به NLI در این پست [https://yangx.top/nlp_stuff/201] صحبت کردیم؛ اما این دادگان فرق میکنه چون ترکیبی پرروی متن و عکسه برای این تسکه.
داستان اینه که آیا یک جفت عکس و متن، یک جفت عکس و متن دیگه رو نتیجه میده (Implies) یا با هم در تضاد هستند (Contradictory) یا نسبت به هم خنثا هستند (NoEntailment).
این عکسه رو که ضمیمه شده ببینید! بحث سر اینه که با متن و تصویر گفته بشه که زمین گرده یا نه. مثلا متن سمت چپ بالا میگه که تصویر زمین از فضا اینه و خب در عکسش هم زمین گرده پس نظرش اینه که زمین گرده؛ اما متن سمت راست بالا میگه زمین واقعی این شکلیه و عکسش هم میگه زمینش تخته پس نظرش اینه که زمین تخته؛ پس مشخصا این دو جفت متن و تصویر با هم مخالف هستند. دقت کردید؟ با متن یا عکس تنها نمیشد تشخیص داد داستان چجوریه ولی با جفتش میشد این نظر را مقایسه کرد.
یا مثلا متن پایین سمت چپ میگه زمین این شکلی نیست و تصویرش میگه زمین تخته . پس اون جفت بالا چپ، جفت پایین چپ رو نتیجه میده چون بالایی میگه زمین گرده و پایینی میگه قطعا زمین تخت نیست.
و در نهایت دو جفت پایین چیزی رو از هم تایید یا رد نمیکنند چون جفتشون فقط میگن زمین این شکلی نیست.
این مجموعه دادگان از توئیتر جمع آوری شده و حدود ۱۵۰۰ جفت آدرس توئیت و یک ستونه که لیبل قضیهست.
https://github.com/google-research-datasets/recognizing-multimodal-entailment
#link
#dataset
@nlp_stuff
گوگل در ACL2021 دادگان جدید و جالبی منتشر کرده به نام Recognizing Multimodal Entailment!
قبلا راجع به NLI در این پست [https://yangx.top/nlp_stuff/201] صحبت کردیم؛ اما این دادگان فرق میکنه چون ترکیبی پرروی متن و عکسه برای این تسکه.
داستان اینه که آیا یک جفت عکس و متن، یک جفت عکس و متن دیگه رو نتیجه میده (Implies) یا با هم در تضاد هستند (Contradictory) یا نسبت به هم خنثا هستند (NoEntailment).
این عکسه رو که ضمیمه شده ببینید! بحث سر اینه که با متن و تصویر گفته بشه که زمین گرده یا نه. مثلا متن سمت چپ بالا میگه که تصویر زمین از فضا اینه و خب در عکسش هم زمین گرده پس نظرش اینه که زمین گرده؛ اما متن سمت راست بالا میگه زمین واقعی این شکلیه و عکسش هم میگه زمینش تخته پس نظرش اینه که زمین تخته؛ پس مشخصا این دو جفت متن و تصویر با هم مخالف هستند. دقت کردید؟ با متن یا عکس تنها نمیشد تشخیص داد داستان چجوریه ولی با جفتش میشد این نظر را مقایسه کرد.
یا مثلا متن پایین سمت چپ میگه زمین این شکلی نیست و تصویرش میگه زمین تخته . پس اون جفت بالا چپ، جفت پایین چپ رو نتیجه میده چون بالایی میگه زمین گرده و پایینی میگه قطعا زمین تخت نیست.
و در نهایت دو جفت پایین چیزی رو از هم تایید یا رد نمیکنند چون جفتشون فقط میگن زمین این شکلی نیست.
این مجموعه دادگان از توئیتر جمع آوری شده و حدود ۱۵۰۰ جفت آدرس توئیت و یک ستونه که لیبل قضیهست.
https://github.com/google-research-datasets/recognizing-multimodal-entailment
#link
#dataset
@nlp_stuff
Telegram
stuff
خون اول. ParsTwiNER؛ دادگان عمومی توییتر فارسی برای NER از تیم اورفیت
خوشبختانه مقاله ما در ورکشاپ WNUT کنفرانس EMNLP 2021 پذیرفته شد و ارائه شفاهی هم دادیم. این مقاله درباره named entity recognition در فضای فارسی غیررسمیه. در این مقاله یه دادگان خوب هم از توییتر فارسی جمعآوری کردیم و تگ زدیم و حالا اون رو بهصورت عمومی عرضه میکنیم تا اندکی از دین خودمون رو به جامعه فنی ادا کرده باشیم.
کیفیت عملکرد مدل ParsBert رو بر روی دادگانمون بررسی کردیم که افت شدید داشت و به f-score حدود ۶۹ درصد رسیده بود. پس در این مقاله یه راهکاری هم با استفاده از یادگیری موازی و data anealing ارائه دادیم تا عملکرد مدل رو به f-score حدودا ۸۲ درصدی برسونیم. اگر مدل شما نتایج بهتری روی این دیتاست گرفت، پول ریکوئست بدید که به ریپو اضافه کنیم.
قضیه از این قراره که دیتاستهای مشهور فارسی در NER مثل پیما و آرمان، همه برروی فارسی رسمی جمعآوری شدهاند. فضای زبانهای غیررسمی یه محیط نویزیه و به همین دلیل مدلهایی که در فضای رسمی آموزش دیدند، اینجا رو خراب میکنند. در این مقاله یه انکودر برت رو به اشتراک گذاشتیم و برای دو تسک NER در فضای رسمی و غیررسمی دوتا دستهبند جدا بر روی انکودر بهاشتراکگذاشته درنظرگرفتیم. حالا در هر دور یادگیری با احتمال لامدا از دیتاست خودمون به مدل میدیم. در ابتدای یادگیری این نسبت خیلی کوچیکه و بیشتر دادگان از فضای رسمی به مدل داده میشه (مثلا دیتاست پیما) اما رفتهرفته این نسبت بزرگ میشه. علت این کار اینه که ساختار زبان غیررسمی درهمریختگی داره و ممکنه مدل رو در ابتدای یادگیری گیج کنه. به خاطر همین باید ساختارهای اولیه رو از دیتای رسمی یاد بگیره و کمکم وارد فضای غیررسمی بشه. مدلهای آموزشدادهشده هم بر روی هاگینگفیس دردسترس هستند.
پ.ن.۱: خداوکیلی هر پستی رو دستبهدست نمیکنید این رو بکنید که بهدست عاشقان و دلدادگان پردازش زبان طبیعی در فارسی برسه!
پ.ن.۲: و لطفا استار به ریپوی گیتهاب یادتون نره!
لینک مقاله:
https://aclanthology.org/2021.wnut-1.16/
لینک دادگان در گیتهاب:
https://github.com/overfit-ir/parstwiner
لینک مدلها:
https://huggingface.co/overfit/twiner-bert-base-mtl
#dataset
#read
#paper
@nlp_stuff
خوشبختانه مقاله ما در ورکشاپ WNUT کنفرانس EMNLP 2021 پذیرفته شد و ارائه شفاهی هم دادیم. این مقاله درباره named entity recognition در فضای فارسی غیررسمیه. در این مقاله یه دادگان خوب هم از توییتر فارسی جمعآوری کردیم و تگ زدیم و حالا اون رو بهصورت عمومی عرضه میکنیم تا اندکی از دین خودمون رو به جامعه فنی ادا کرده باشیم.
کیفیت عملکرد مدل ParsBert رو بر روی دادگانمون بررسی کردیم که افت شدید داشت و به f-score حدود ۶۹ درصد رسیده بود. پس در این مقاله یه راهکاری هم با استفاده از یادگیری موازی و data anealing ارائه دادیم تا عملکرد مدل رو به f-score حدودا ۸۲ درصدی برسونیم. اگر مدل شما نتایج بهتری روی این دیتاست گرفت، پول ریکوئست بدید که به ریپو اضافه کنیم.
قضیه از این قراره که دیتاستهای مشهور فارسی در NER مثل پیما و آرمان، همه برروی فارسی رسمی جمعآوری شدهاند. فضای زبانهای غیررسمی یه محیط نویزیه و به همین دلیل مدلهایی که در فضای رسمی آموزش دیدند، اینجا رو خراب میکنند. در این مقاله یه انکودر برت رو به اشتراک گذاشتیم و برای دو تسک NER در فضای رسمی و غیررسمی دوتا دستهبند جدا بر روی انکودر بهاشتراکگذاشته درنظرگرفتیم. حالا در هر دور یادگیری با احتمال لامدا از دیتاست خودمون به مدل میدیم. در ابتدای یادگیری این نسبت خیلی کوچیکه و بیشتر دادگان از فضای رسمی به مدل داده میشه (مثلا دیتاست پیما) اما رفتهرفته این نسبت بزرگ میشه. علت این کار اینه که ساختار زبان غیررسمی درهمریختگی داره و ممکنه مدل رو در ابتدای یادگیری گیج کنه. به خاطر همین باید ساختارهای اولیه رو از دیتای رسمی یاد بگیره و کمکم وارد فضای غیررسمی بشه. مدلهای آموزشدادهشده هم بر روی هاگینگفیس دردسترس هستند.
پ.ن.۱: خداوکیلی هر پستی رو دستبهدست نمیکنید این رو بکنید که بهدست عاشقان و دلدادگان پردازش زبان طبیعی در فارسی برسه!
پ.ن.۲: و لطفا استار به ریپوی گیتهاب یادتون نره!
لینک مقاله:
https://aclanthology.org/2021.wnut-1.16/
لینک دادگان در گیتهاب:
https://github.com/overfit-ir/parstwiner
لینک مدلها:
https://huggingface.co/overfit/twiner-bert-base-mtl
#dataset
#read
#paper
@nlp_stuff
Telegram
stuff
دیتاست OCR ارشاسب
دیتاست ocr فارسی با نام اَرشاسب منتشر شد. این دیتاست (همچون نمونه در تصویر) شامل متنهای پیوستهای است که در آن، کلمات به همراه مختصات در تصویر برچسب زده شدهاند. ۷۰۰۰ صفحه از این دیتاست به صورت عمومی منتشر شده و همچنین نسخه کاملتر این دیتاست که شامل ۳۳ هزار صفحه است، توسط سازندگان آن برای اعضای کانال به صورت رایگان در دسترس قرار گرفته است.
لینک گیتهاب دیتاست (۷ هزار صفحه):
https://github.com/persiandataset/Arshasb
لینک کل دیتا (۳۳ هزار صفحه):
https://drive.google.com/file/d/1Ahw_y-ugnu6FFz_SRBm2VUxnaqmXfsvp
پ.ن. با تشکر از سازندهی این دیتاست که به کانال این پست را ارسال کردند. شما هم میتونید با استار دادن در گیتهاب از این پروژه حمایت کنید.
#dataset
#irani
@nlp_stuff
دیتاست ocr فارسی با نام اَرشاسب منتشر شد. این دیتاست (همچون نمونه در تصویر) شامل متنهای پیوستهای است که در آن، کلمات به همراه مختصات در تصویر برچسب زده شدهاند. ۷۰۰۰ صفحه از این دیتاست به صورت عمومی منتشر شده و همچنین نسخه کاملتر این دیتاست که شامل ۳۳ هزار صفحه است، توسط سازندگان آن برای اعضای کانال به صورت رایگان در دسترس قرار گرفته است.
لینک گیتهاب دیتاست (۷ هزار صفحه):
https://github.com/persiandataset/Arshasb
لینک کل دیتا (۳۳ هزار صفحه):
https://drive.google.com/file/d/1Ahw_y-ugnu6FFz_SRBm2VUxnaqmXfsvp
پ.ن. با تشکر از سازندهی این دیتاست که به کانال این پست را ارسال کردند. شما هم میتونید با استار دادن در گیتهاب از این پروژه حمایت کنید.
#dataset
#irani
@nlp_stuff
دیتاست MASSIVE آمازون
خلاصهی کلام اینه که تیم الکسای شرکت آمازون یک دیتاست عظیم یک میلیونی چندزبانه برای درک زبانی (بخش intent prediction and slot annotation) بیرون داده که فارسی هم توش هست. این دیتاست مخصوص دو زیرتسک مهم چتباتهای وظیفهمحور که intent prediction و slot annotation باشند ارائه شده. توضیح مختصر این که وقتی میخواید یک چتبات وظیفه محور بزنید یک تسک اینه که اول تشخیص بدید که مقصود کاربر از یک پیام که میده چیه (مثلا میخواد بلیت قطار رزرو کنه، آهنگ خاصی براش پخش بشه، هتلای رزرو کنه و ...) و در گام بعد حالا که مقصود کاربر رو فهمیدیم بیایم آرگومانها یا به اصطلاح slotهای اون مقصود خاص رو در متن پیام تشخیص بدیم (مثلا اگر مقصود کاربر رزرو بلیت قطار باشه آرگومانهاش میشه مبدا و مقصد و تاریخ و ساعت)
این دیتاست به ۵۱ زبان (از جمله فارسی) اومده به صورت موازی یک سری عبارات رو لبیل زده. هر سطرش یک جملهست که مثلا گفته:
What is the temperature in New York?
بعد این رو باید در دستهی weather_query (یعنی intentاش میشه سوال آبوهوایی) قرار بگیره و موجودیتهای مرتبط (این slot است که آرگومانهای مرتبط با همون intent میشه) باهاش باید باشه:
weather_descriptor: temperature, place_name: new york
حالا متناظر با این در دیتای فارسی مثلا داریم:
دمای نیویورک چنده و موجودیتهای مرتبط مشخص شدند دما و نیویورک.
واسه هر زبون هم حدودا ۱۷ هزارتاست.
همون جملات رو واسه زبونهای مختلف گذاشتند که از مدلهای چندزبانه واسه یادگیری بشه استفاده کرد یعنی از representation جملات فارغ از زبان استفاده بشه. مثال خوبی از این مدلها LASER فیسبوکه.
بعد حالا دیتاست به این عظمت رو منتشر کردند و گفتند بیاید روش مدل ترین کنید و مسابقه برگزار کردند! این دیتاست با این هدف تولید شده که دستیار صوتی آمازون (الکسا) بتونه زبانهای بیشتری رو بفهمه و کلا همونطور که گفتیم ازش برای چتباتهای وظیفهمحور میشه استفاد کرد.
بلاگ توضیح دیتاست:
https://www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding
ریپو دیتاست در گیت:
https://github.com/alexa/massive
#dataset
@nlp_stuff
خلاصهی کلام اینه که تیم الکسای شرکت آمازون یک دیتاست عظیم یک میلیونی چندزبانه برای درک زبانی (بخش intent prediction and slot annotation) بیرون داده که فارسی هم توش هست. این دیتاست مخصوص دو زیرتسک مهم چتباتهای وظیفهمحور که intent prediction و slot annotation باشند ارائه شده. توضیح مختصر این که وقتی میخواید یک چتبات وظیفه محور بزنید یک تسک اینه که اول تشخیص بدید که مقصود کاربر از یک پیام که میده چیه (مثلا میخواد بلیت قطار رزرو کنه، آهنگ خاصی براش پخش بشه، هتلای رزرو کنه و ...) و در گام بعد حالا که مقصود کاربر رو فهمیدیم بیایم آرگومانها یا به اصطلاح slotهای اون مقصود خاص رو در متن پیام تشخیص بدیم (مثلا اگر مقصود کاربر رزرو بلیت قطار باشه آرگومانهاش میشه مبدا و مقصد و تاریخ و ساعت)
این دیتاست به ۵۱ زبان (از جمله فارسی) اومده به صورت موازی یک سری عبارات رو لبیل زده. هر سطرش یک جملهست که مثلا گفته:
What is the temperature in New York?
بعد این رو باید در دستهی weather_query (یعنی intentاش میشه سوال آبوهوایی) قرار بگیره و موجودیتهای مرتبط (این slot است که آرگومانهای مرتبط با همون intent میشه) باهاش باید باشه:
weather_descriptor: temperature, place_name: new york
حالا متناظر با این در دیتای فارسی مثلا داریم:
دمای نیویورک چنده و موجودیتهای مرتبط مشخص شدند دما و نیویورک.
واسه هر زبون هم حدودا ۱۷ هزارتاست.
همون جملات رو واسه زبونهای مختلف گذاشتند که از مدلهای چندزبانه واسه یادگیری بشه استفاده کرد یعنی از representation جملات فارغ از زبان استفاده بشه. مثال خوبی از این مدلها LASER فیسبوکه.
بعد حالا دیتاست به این عظمت رو منتشر کردند و گفتند بیاید روش مدل ترین کنید و مسابقه برگزار کردند! این دیتاست با این هدف تولید شده که دستیار صوتی آمازون (الکسا) بتونه زبانهای بیشتری رو بفهمه و کلا همونطور که گفتیم ازش برای چتباتهای وظیفهمحور میشه استفاد کرد.
بلاگ توضیح دیتاست:
https://www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding
ریپو دیتاست در گیت:
https://github.com/alexa/massive
#dataset
@nlp_stuff
Amazon Science
Amazon releases 51-language dataset for language understanding
MASSIVE dataset and Massively Multilingual NLU (MMNLU-22) competition and workshop will help researchers scale natural-language-understanding technology to every language on Earth.
پیکره متنی ناب
پیکره متنی «ناب» دیتای plain فارسیه که حدود ۱۳۰ گیگه و شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمهست که به تازگی منتشر شده. دوستداران زبان فارسی میتونند برای آموزش مدل زبانی ازش استفاده کنند و مدلهایی رو آماده کنند که ملت هم ازش استفاده کنند.
پ.ن. با تشکر از آزمایشگاه دکتر صامتی در دانشگاه شریف که پیکره رو به صورت عمومی منتشر کردند. دعای خیر ما بدرقه راهشان!
لینک مقاله:
https://arxiv.org/abs/2208.13486
لینک هاگینگفیس:
https://huggingface.co/datasets/SLPL/naab
https://huggingface.co/datasets/SLPL/naab-raw
#dataset
@nlp_stuff
پیکره متنی «ناب» دیتای plain فارسیه که حدود ۱۳۰ گیگه و شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمهست که به تازگی منتشر شده. دوستداران زبان فارسی میتونند برای آموزش مدل زبانی ازش استفاده کنند و مدلهایی رو آماده کنند که ملت هم ازش استفاده کنند.
پ.ن. با تشکر از آزمایشگاه دکتر صامتی در دانشگاه شریف که پیکره رو به صورت عمومی منتشر کردند. دعای خیر ما بدرقه راهشان!
لینک مقاله:
https://arxiv.org/abs/2208.13486
لینک هاگینگفیس:
https://huggingface.co/datasets/SLPL/naab
https://huggingface.co/datasets/SLPL/naab-raw
#dataset
@nlp_stuff
دادگان PCoQA: Persian Conversational Question Answering
دادگان (دیتاست) جدیدی به نام PCoQA منتشر شده که شامل ۹۰۲۶ پرسش از ۸۷۰ صفحه ویکیپدیاست. هر گفتمان (conversation) روی یک صفحه ویکیپدیا انجام شده و طول هر گفتمان هم حدودا ۱۰ است. به منظور ارزیابی انسانی شبیه دادگانهای گذشته مثل SQuAD و CoQA، برای هر پرسش در مجموعهی ارزیابی و تست چندین پاسخ دراومده و دقت F1 انسانها و چندین مدل بر روی پاسخدهی به این پرسشها بدست اومده که برای انسان حدودا ۸۶ درصده.
دو نوع مدل روی این داده تست شده. یکی با فقط فاینتیون کردن چند مدل زبانی ترنسفورمری روی همین دادگان و یک مدل دیگه هم با فاینتیون کردن مدل روی دادگان قبلی QA و بعد فاین تیون روی این دادگان و بعد تست گرفتن.
دو خصوصیت مهم این دیتاست:
- پرسشهای این دادگان بیشتر open ended هستند، بر خلاف قبلیها مثل CoQA و SQuAD که بیشتر به شکلی مصنوعی بر روی named entity و noun phrase متمرکزند.
- سعی شده lexical overlap تا حد امکان کاهش داده بشه تا کیفیت بالاتر بیاد.
لینک مقاله:
arxiv.org/abs/2312.04362
لینک گیتهاب:
github.com/HamedHematian/PCoQA
#dataset
@nlp_stuff
دادگان (دیتاست) جدیدی به نام PCoQA منتشر شده که شامل ۹۰۲۶ پرسش از ۸۷۰ صفحه ویکیپدیاست. هر گفتمان (conversation) روی یک صفحه ویکیپدیا انجام شده و طول هر گفتمان هم حدودا ۱۰ است. به منظور ارزیابی انسانی شبیه دادگانهای گذشته مثل SQuAD و CoQA، برای هر پرسش در مجموعهی ارزیابی و تست چندین پاسخ دراومده و دقت F1 انسانها و چندین مدل بر روی پاسخدهی به این پرسشها بدست اومده که برای انسان حدودا ۸۶ درصده.
دو نوع مدل روی این داده تست شده. یکی با فقط فاینتیون کردن چند مدل زبانی ترنسفورمری روی همین دادگان و یک مدل دیگه هم با فاینتیون کردن مدل روی دادگان قبلی QA و بعد فاین تیون روی این دادگان و بعد تست گرفتن.
دو خصوصیت مهم این دیتاست:
- پرسشهای این دادگان بیشتر open ended هستند، بر خلاف قبلیها مثل CoQA و SQuAD که بیشتر به شکلی مصنوعی بر روی named entity و noun phrase متمرکزند.
- سعی شده lexical overlap تا حد امکان کاهش داده بشه تا کیفیت بالاتر بیاد.
لینک مقاله:
arxiv.org/abs/2312.04362
لینک گیتهاب:
github.com/HamedHematian/PCoQA
#dataset
@nlp_stuff
👍1