یادگیری ماشین
3.42K subscribers
21 photos
2 videos
26 files
138 links
加入频道
موضوع بازنمایی جملات (sentence representation) در ادامه‌ی موفقیت‌های حاصل شده برای بازنمایی کلمات (word representation) به موضوعی داغ تبدیل شده است. هدف از بازنمایی جملات، تبدیل یک جمله به یک بردار عددی است بطوری‌که این بردار اطلاعات معنایی و ساختاری جمله را شامل شود و جملات مشابه به نقاطی نزدیک در این فضای برداری نگاشت شوند. همچنین، یک بازنمایی مناسب قابلیت انتقال دارد، یعنی می‌توان آن را برای مسائل مختلف پردازش زبان طبیعی بکار برد و خاص یک مسئله‌ی مشخص نمی‌باشد.
اخیراً دو تن از محققان تیم هوش مصنوعی فیسبوک برای ساده کردن و یکنواخت‌سازی مقایسه‌ی بین روش‌های مختلف بازنمایی جملات، ابزار SentEval را توسعه داده و در اختیار عموم قرار داده‌اند. این ابزار تا کنون شامل ۱۷ مسئله‌ی مختلف است و چند روش بازنمایی موجود (مانند روش Google USE و Facebook InferSent) را هم بعنوان مثال شامل می‌شود. در لینک زیر، مقالات و کدهای مربوط به تعدادی از روش‌های بازنمایی جملات به همراه ابزار SentEval قرار داده شده است:
https://github.com/h-amirkhani/NLP-must-read/blob/master/sentence_representation.md
کنفرانس‌های CoNLL و EMNLP دو کنفرانس معتبر حوزه‌ی "پردازش زبان‌های طبیعی"، امسال در یک زمان (از فردا به مدت ۵ روز) در شهر بروکسل برگزار خواهند شد. دو مقاله‌ی زیر، به‌ترتیب برنده‌ی جایزه‌ی بهترین مقاله و جایزه‌ی ویژه‌ی کنفرانس CoNLL شده‌اند:
http://aclweb.org/anthology/K18-1028
http://aclweb.org/anthology/K18-1030
👍1
تأثیر مجموعه داده‌ی ImageNet بر نسل جدید هوش مصنوعی و نقش آن در ایجاد موج "یادگیری عمیق" بر کسی پوشیده نیست. از منظر کاربردهای عملی بینایی ماشین نیز استفاده از مدل‌های پیش‌آموزش داده شده روی ImageNet و انجام "یادگیری انتقالی" بعنوان ابزار اصلی بسیاری از پروژه‌های این حوزه مورد استفاده بوده است.
در حوزه‌ی پردازش زبان‌های طبیعی، برخی از محققین معتقدند "لحظه‌ی ImageNet" با ظهور مدل‌های عمیق پیش‌اموزش داده شده در مسئله‌ی "مدل‌سازی زبانی" فرا رسیده است. پست زیر را برای آگاهی بیشتر با این موضوع مطالعه کنید:
http://ruder.io/nlp-imagenet/
مصاحبه با ۲۵ محقق عمدتا به‌نام حوزه‌ی پردازش زبان‌های طبیعی. از هر نفر چهار سوال پرسیده شده است:
سه مورد از بزرگ‌ترین مسائل حل نشده‌ی حوزه‌ی پردازش زبان‌های طبیعی؟
مؤثرترین کار انجام شده در دهه‌ی گذشته؟
موردی که باعث انحراف این حوزه شده است (درصورت وجود)؟
توصیه به دانشجویانی که می‌خواهند در این حوزه تحقیقات را شروع کنند؟
👇
کتاب جدید و رایگان "مقدمه‌ای بر جبر خطی کاربردی" نوشته‌ی دو تن از اساتید برجسته‌ی حوزه‌ی بهینه‌سازی:
http://vmls-book.stanford.edu/vmls.pdf
پروژه‌ی کارشناسی انجام شده در "آزمایشگاه داده‌کاوی و یادگیری ماشین دانشگاه قم" مشابه Google Semantris:
http://dml.qom.ac.ir/2018/12/15/wordgame
یادگیری ماشین
Terrence_J_Sejnowski_The_Deep_Learning.pdf
کتاب ارزشمند "انقلاب یادگیری عمیق" نوشته شده توسط پروفسور Sejnowski از بزرگان هوش مصنوعی و علوم اعصاب محاسباتی. ایشان در بسیاری از تحولات و دستاوردهای هوش مصنوعی و شبکه‌های عصبی نقش داشته‌اند و بسیاری از موارد را بطور دست اول لمس کرده‌اند و در این کتاب به مرور این دستاوردها بعنوان بازیگر اصلی این میدان پرداخته‌اند.
لیزر نام ابزار جدید بازنمایی جملات ارائه شده توسط فیسبوک است. ویژگی خاص این ابزار، بازنمایی ۹۳ زبان مختلف (از جمله زبان فارسی) در یک فضای مشترک است که کار یادگیری انتقالی بین زبانی را تسهیل می‌کند (مانند ساخت مدل روی داده‌های زبان انگلیسی و استفاده از مدل برای زبان فارسی).
https://code.fb.com/ai-research/laser-multilingual-sentence-embeddings/
حتماً با بازی پیکشنری (حداقل از طریق خندوانه!) آشنا هستید. اکنون می‌توانید این بازی را با هوش مصنوعی مؤسسه‌ی آلن انجام دهید.
آدرس سایت:
https://iconary.allenai.org
ویدئوی معرفی:
https://www.youtube.com/watch?v=HdXQTuOTXEw
کورس "پردازش زبان‌های طبیعی با یادگیری عمیق" توسط پروفسور کریستوفر منینگ استاد سرشناس دانشگاه استنفورد در ترم جاری نیز در حال برگزاری است. ویدئوهای این کورس از آدرس زیر قابل دسترسی است:
https://www.youtube.com/watch?v=8rXD5-xhemo&list=PLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z
جهت اطلاع: در کانال زیر از یوتیوب، تکه‌های کوتاه (حدود دو دقیقه) از مصاحبه با برندگان جایزه‌ی نوبل در موضوعات مختلف جمع‌آوری شده است:
https://www.youtube.com/channel/UCK6foRGydQswdnkPG-EO45Q
توئیت آقای مکرون رئیس جمهور فرانسه پس از این‌که جایزه‌ی تورینگ ۲۰۱۸ (معادل نوبل کامپیوتر) به سه نفر از بزرگان یادگیری عمیق (از جمله آقای یان لکون که اصالتاً فرانسوی هستند) اختصاص یافت. ایشان در این توئیت به این مورد اشاره می‌کنند که یکی از اولویت‌های دولت فرانسه این است که یکی از رهبران حوزه‌ی هوش مصنوعی شود.
یک خلاصه از مقاله‌ای جالب که تخمین می‌زند حجم دانش زبانی که یک بزرگسال انگلیسی زبان (در حد متوسط) یاد می‌گیرد، حدود ۱.۵ مگابایت است (این را با حجم پارامترهای شبکه‌های عصبی موجود مقایسه کنید). همچنین اشاره می‌کند که اکثر این دانش مربوط به بُعد معنایی زبان (semantic) است نه بُعد نحوی (syntax).
https://news.berkeley.edu/2019/03/27/younglanguagelearners/