یادگیری ماشین
3.42K subscribers
21 photos
2 videos
26 files
138 links
加入频道
طبق تقسیم‌بندی ارائه شده توسط پروفسور Pedro Domingos، پژوهشگرانی را که در حوزه‌ی هوش مصنوعی کار کرده‌اند، می‌توان به پنج دسته تقسیم نمود:
دسته‌ی اول: نمادگراها (Symbolists): کسانی‌که بدنبال مدل کردن حقایق مبتنی بر نمادها و حل مسائل با استفاده از استنتاج‌های منطقی هستند.
دسته‌ی دوم: اتصال‌گراها (Connectionists): کسانی‌که با الهام گرفتن از اتصالات بین نورون‌ها در مغز، مدل‌هایی می‌سازند که فرآیند یادگیری موجود در مغز را تقلید کند. شبکه‌های عصبی مصنوعی از موفق‌ترین دستاوردهای این پژوهشگران می‌باشد.
دسته‌ی سوم: تکامل‌گراها (Evolutionaries): این دسته معتقدند که وقتی تکامل توانسته است موجوداتی به هوشمندی انسان تولید کند، می‌توان با الهام گرفتن از تکامل، ماشین‌های هوشمند ساخت. الگوریتم‌های ژنتیک و برنامه‌نویسی ژنتیک نمونه‌هایی از دستاوردهای این پژوهشگران هستند.
دسته‌ی چهارم: بیزین‌گراها (Bayesians): این دسته بر مدل‌سازی‌های احتمالاتی و استنتاج‌های مبتنی بر تئوری احتمالات (که روش بیز پایه‌ی آن است) تمرکز دارند. مدل‌های گرافیکی احتمالاتی مانند شبکه‌های بیزی از دستاوردهای این پژوهشگران هستند.
دسته‌ی پنجم: شباهت‌گراها (Analogizers): افرادی که ماشین را به‌گونه‌ای آموزش می‌دهند که برای حل یک مسئله، از مسائل حل شده‌ی شبیه به آن مسئله استفاده کند. روش‌های پایه‌ی طبقه‌بندی مانند روش نزدیک‌ترین همسایه و ماشین‌های بردار پشتیبان (SVM) از دستاوردهای این پژوهشگران می‌باشند.

لینک ارائه در یوتیوب: https://www.youtube.com/watch?v=iUotc1Z_3es
لینک فایل پی‌دی‌اف ارائه: https://learning.acm.org/webinar_pdfs/PedroDomingos_FTFML_WebinarSlides.pdf
👍1
شبکه‌های عصبی مصنوعی، تاریخچه‌ی پر فراز و نشیب و جذابی داشته‌اند. اولین مدل ریاضی شبکه‌های عصبی، حدود ۷۵ سال پیش (۱۹۴۳ میلادی) در مقاله‌ی کلیدی آقایان McCulloch وPitts با عنوان زیر معرفی شد.
A Logical Calculus of Ideas Immanent in Nervous Activity
در اواخر دهه‌ی ۵۰ میلادی، موفقیت‌های نمادگرایان (Symbolists) باعث به حاشیه رفتن شبکه‌های عصبی شد. با این وجود، مدل معروف ارائه شده توسط رزنبلت (Rosenblatt) با نام پرسپترون (معرفی شده در سال ۱۹۵۸)، حوزه‌ی شبکه‌های عصبی را زنده نگاه داشت. وی پیش‌بینی کرده بود که پرسپترون می‌تواند نهایتاً یاد بگیرد، تصمیم‌گیری کند و ترجمه‌ی بین زبانی انجام دهد.
در سال ۱۹۶۹ انتشار کتابی با عنوان Perceptrons توسط مینسکی و پاپارت (Minsky و Papert) باعث ایجاد یک خزان در تحقیقات مربوط به شبکه‌های عصبی شد. در این کتاب، محدودیت‌های شبکه‌های عصبی فاقد لایه‌ی مخفی،‌ بطور دقیق اثبات شد و همچنین، درباره‌ی پیچیدگی یادگیری شبکه‌های چندلایه، ادعاهای بدون اثباتی مطرح شد. این کتاب باعث شد که بودجه‌های تحقیقاتی مربوط به شبکه‌های عصبی در کل دهه‌ی هفتاد و اوایل دهه‌ی هشتاد میلادی به‌شدت کاهش یابد. البته در همین دوره کارهای محدودی انجام شد که مهم‌ترین آنها، استفاده از روش پس‌انتشار خطا (error backpropagation) توسط آقای Paul Werbos برای آموزش پارامترهای موجود در لایه‌های مخفی شبکه‌های عصبی می‌باشد (این کار در تز دکترای ایشان در سال ۱۹۷۴ میلادی در دانشگاه هاروارد انجام پذیرفت).
در اواسط دهه‌ی ۸۰ میلادی، نمایش موفقیت الگوریتم پس‌انتشار خطا در یادگیری بازنمایی مناسب داده‌ها در لایه‌های مخفی شبکه‌های عصبی توسط دانشمندانی مانند Rumelhart، Hinton و Ronald Williams به خزان شبکه‌های عصبی پایان داد و حیاتی جدید در تحقیقات این حوزه را آغاز کرد. متأسفانه آقای رزنبلت نزدیک دو سال پس از انتشار کتاب Perceptrons در روز تولد ۴۳ سالگی خود در یک تصادف قایق‌رانی جان باخت و نتوانست شاهد پیشرفت شبکه‌های عصبی باشد. آقایان مینسکی و پاپارت هر دو در سال گذشته‌ی میلادی (۲۰۱۶) در سن ۸۸ سالگی درگذشتند.
حدود بیست سال تحقیقات روی شبکه‌های عصبی با فراز و نشیب‌هایی دنبال شد تا این‌که حدود ده سال پیش، موج جدیدی از موفقیت‌های شبکه‌های عصبی به راه افتاد. موفقیت‌های حاصل شده در این ده سال، حقیقتاً حیرت‌آور هستند. به‌عنوان یک نمونه، در اواخر سال ۲۰۱۵ میلادی، ماشین‌های مبتنی بر شبکه‌های عصبی توانستند در تشخیص اشیاء موجود در تصاویر طبیعی، دقتی بالاتر از دقت انسان بدست آورند (در مجموعه‌ای بزرگ از تصاویر از ۱۰۰۰ دسته‌ی موجود). حیرت‌آور بودن این دستاوردها حتی برای محققین تراز اول هوش مصنوعی نیز قابل کتمان نیست. به‌عنوان مثال، خانم Daphne Koller در رخداد google IO 2017 بیان می‌کنند که ما پنج سال پیش تخمین می‌زدیم که ۲۰ سال دیگر در جایی باشیم که اکنون هستیم (بطور خاص در مسئله‌ی تشخیص اشیاء در تصاویر). البته این موفقیت‌ها محدود به مسائل مربوط به بینایی ماشین نبوده و در کاربردهای متنوع دیگر از جمله تشخیص صحبت، پردازش زبان‌های طبیعی، اتومبیل‌های خودران، کاربردهای پزشکی، کاربردهای هنری و غیره نیز خود را نشان داده است.
راجع به دلایل موفقیت ده سال اخیر شبکه‌های عصبی (بطور خاص، شبکه‌های عصبی عمیق) بحث‌های فراوانی مطرح می‌شود که بیان دقیق آنها نیازمند مطلبی مجزا می‌باشد.
👍2
خبر: برای اولین بار، سایت kaggle میزبان مسابقه‌ی ILSVRC مربوط به ImageNet می‌باشد. البته هنوز امکان ارسال کد وجود ندارد، ولی داده‌ها در سایت بارگذاری شده‌اند و همچنین، امکان پرسش و پاسخ در انجمن وجود دارد. توجه کنید که بدلیل محدودیت‌هایی که برای آی‌پی‌های ایران اِعمال می‌شود، ممکن است لازم باشد با آی‌پی غیر ایران به سایت kaggle دسترسی پیدا کنید.
پ.ن. این مسابقه، همان رقابتی است که در سال ۲۰۱۲ با شبکه‌ی الکس‌نت باعث جلب توجه به شبکه‌های عصبی کانولوشنی گردید.
https://www.kaggle.com/c/imagenet-object-localization-challenge/
جمله‌ای در اهمیت شرکت در رقابت‌های Kaggle:
آقای جرمی هاوارد (Jeremy Howard) از مهندسین به‌نام حوزه‌ی یادگیری ماشین و علوم داده‌ها هستند. عمده‌ی شهرت ایشان در بین ایرانیان احتمالاً بدلیل ارائه‌ی دروس یادگیری عمیق عملی (practical deep learning) است. در جلسه‌ی هفتم این دوره، ایشان جمله‌ای راجع به رقابت‌های موجود در سایت Kaggle ذکر می‌کنند و بیان می‌کنند که “من بسیار بیشتر از هرکار دیگری با شرکت در این رقابت‌ها آموخته کسب کرده‌ام”. البته با بررسی جملات قبلی ایشان، ظاهراً تأکید ایشان بیشتر بر رقابت‌های فعال و جدید موجود در kaggle است نه رقابت‌های قدیمی. اصل جمله‌ی ایشان:
I hope some of you will consider seriously investing — like putting an hour a day in to a competition. I learn far more doing that than anything else I have ever done.
ده مقاله‌ی کلاسیک مربوط به هوش مصنوعی به انتخاب سرویس اسکالر گوگل. این مقالات در سال ۲۰۰۶ منتشر شده‌اند و طی ده سال گذشته توانسته‌اند بیشترین ارجاعات را کسب کنند.
یکی از پایگاه داده‌های ساده ولی پراستفاده در یادگیری ماشین، MNIST است که شامل ۶۰۰۰۰ نمونه‌ی آموزشی و ۱۰۰۰۰ نمونه‌ی آزمایشی از تصاویر ارقام دست‌نویس با ابعاد ۲۸ در ۲۸ می‌باشد. در چند روز گذشته یک پایگاه جدید با همان فرمت ولی برای تشخیص ده نوع لباس و کیف و کفش با نام Fashion-MNIST معرفی شده است که در لینک زیر قابل دریافت می‌باشد:
https://github.com/zalandoresearch/fashion-mnist
این پایگاه توسط آقای Yann LeCun (از طراحان اصلی MNIST و مدیر فعلی بخش تحقیقات هوش مصنوعی فیسبوک) در صفحه‌ی ایشان نیز معرفی شده است👇
👍1
جهت اطلاع: امروز ۱۳ سپتامبر، ۲۵۶ امین روز سال میلادی بعنوان روز برنامه‌نویس در روسیه شناخته می‌شود. ۲۵۶ تعداد اعداد متمایزی است که می‌توان در یک بایت نمایش داد. همچنین این عدد بزرگ‌ترین توان دو کوچک‌تر از تعداد روزهای سال است.
این نمودار (به همراه توضیحات ارائه شده در منبع زیر) نشان می‌دهد که عمده نیروی محرکه‌ی پایتون در سال‌های اخیر، علوم داده‌ها بوده است.
https://stackoverflow.blog/2017/09/14/python-growing-quickly/?cb=1
بیش از صد سوالی که در مصاحبه‌ی شغلی مربوط به علوم داده‌ها در شرکت‌های بزرگ مثل گوگل، مایکروسافت، اپل و غیره پرسیده شده‌اند:
http://www.learndatasci.com/data-science-interview-questions/?utm_source=mybridge&utm_medium=web&utm_campaign=read_more
مجموعه‌ای از اصطلاحات مربوط به یادگیری ماشین. بدلیل تحریم آی‌پی‌های ایران در برخی از سرویس‌های گوگل، با آی‌پی متفاوت برای دسترسی به لینک زیر استفاده نمایید:
https://developers.google.com/machine-learning/glossary
👍1
حدود چهار ماه قبل، سایت کگل که به یک میلیون کاربر رسیده بود، بخشی از تجربیات و اتفاقات بیش از هفت سال حیات خود را در قالب تصویر فوق به اشتراک گذاشت. یکی از نکات جالبی که به آن اشاره شده بود، موفقیت روش جنگل تصادفی به‌عنوان پراستفاده‌ترین روش در بین تیم‌های برنده در رقابت‌ها در فاصله‌ی سال‌های ۲۰۱۰ تا ۲۰۱۱ بود. روش جنگل تصادفی یکی از روش‌های ترکیب درخت‌های تصمیم است. اخیراً یکی دیگر از روش‌های ترکیب با عنوان gradient boosting موفقیت‌های قابل توجهی در رقابت‌های کگل کسب کرده است و بسیاری از تیم‌های برنده از این روش بهره برده‌اند. بطور خاص، کتابخانه‌ی XGBoost که پیاده‌سازی کارایی از این روش ارائه داده است، به وفور توسط شرکت‌کنندگان مورد استفاده قرار گرفته است. برای آشنایی مقدماتی با این روش، به آدرس زیر مراجعه کنید:
https://xgboost.readthedocs.io/en/latest/model.html
دوستان علاقه‌مند به مبحث شبکه‌های بیزی، به ارائه‌ی زیر که در سمینار زمستانی دانشگاه صنعتی شریف در دی‌ماه ۹۵ برگزار شده است، توجه کنند. این ارائه در دو بخش انجام شده است که در بخش اول (تا دقیقه‌ی ۲۳) کلیاتی از شبکه‌های بیزی معرفی شده است و در بخش دوم، یکی از مقالات جدید این حوزه با موضوع "بکارگیری دانش انسانی در فرآیند یادگیری ساختار شبکه‌های بیزی" ارائه شده است.
https://www.youtube.com/watch?v=JTndcNGmAYw&t=1494s
اسلایدهای ارائه را هم می‌توانید از طریق آدرس زیر دریافت نمایید:
http://wss.ce.sharif.edu/assets/slides/hossein-amirkhani.pdf
بیش از ۶۰ درصد مقالات کنفرانسی مربوط به یادگیری ماشین دارای نسخه‌ای در سرویس آرکایو می‌باشند. همچنین، رشد انتشار مقالات در آرکایو مربوط به حوزه‌های بینایی ماشین و پردازش زبان طبیعی، چشمگیر بوده است.
بهترین نرم‌افزارهای متن‌باز مربوط به یادگیری ماشین سال ۲۰۱۷ به انتخاب InfoWorld:
Synaptic
Scikit-learn
Caffe2
H2O
PyTorch
CatBoost
XGBoost
GNU Octave
TensorFlow
Microsoft Cognitive Toolkit
Apache MXNet
Apple Core ML
منبع:
https://www.infoworld.com/article/3228224/machine-learning/bossie-awards-2017-the-best-machine-learning-tools.html
https://www.youtube.com/playlist?list=PLievC1UeaSOD3EBaJaHstTKIXS51Sfjwo

لینک فوق شامل سی ویدئو راجع به آموزش یادگیری سریع‌تر و بهتر توسط خانم دکتر باربارا اوکلی استاد دانشگاه اوکلند می‌باشد. هر ویدئو معمولاً کمتر از ۱۰ دقیقه است.
پانوشت: این ویدئوها بدلیل اهمیت شناخت دقیق‌تر فرآیند یادگیری انسانی در کانال معرفی شده‌اند و در آنها بحثی از یادگیری ماشین نمی‌شود. شناخت فرآیند یادگیری انسانی کمک می‌کند در هر زمینه‌ای، بتوانیم بهتر از پتانسیل مغزمان استفاده نماییم.
موفقیت دیگری برای شبکه‌های عصبی:
طی دو ماه اخیر، رقابتی در سایت کگل با عنوان Porto Seguro’s Safe Driver Prediction توسط یک شرکت بیمه‌ی برزیلی با هدف پیش‌بینی این‌که آیا یک راننده در سال آینده برای گرفتن خسارت به بیمه مراجعه می‌کند یا نه برگزار شد. این رقابت از تاریخ ۲۹ سپتامبر (۷ مهر) لغایت ۳۰ نوامبر ۲۰۱۷ (۹ آذر ۱۳۹۶) برگزار شد و با استقبال قابل توجهی روبرو شد، بطوری‌که ۶۰۶۲ نفر در قالب ۵۳۵۵ تیم در این رقابت شرکت کردند. از آن‌جایی‌که جنس داده‌ی مورد استفاده در این رقابت از جنس داده‌های جدولی بود، از ابتدا چنین به نظر رسید که شبکه‌های عصبی در این رقابت نمی‌توانند موفق باشند و کسانی هم که از این رویکرد برای حل مسئله استفاده می‌کردند، موفقیت قابل توجهی را گزارش نکردند. درعوض، روش‌های مبتنی بر بوستینگ درخت‌های تصمیم (مانند XGBoost و LightGBM) بسیار مورد توجه قرار گرفتند و تا پایان رقابت تصور می‌شد که مناسب‌ترین روش برای حل چنین مسائلی، استفاده از این ابزارها می‌باشد. با پایان یافتن رقابت و مشخص شدن جایگاه افراد مختلف شرکت‌کننده، نفر اول رقابت در قالب پستی، رویکرد مورد استفاده‌ی خود برای حل این مسئله را شرح داد که در لینک زیر می‌توانید مطالعه کنید (با آی‌پی غیر ایران وارد کگل شوید!). رویکرد مورد استفاده‌ی ایشان، استفاده از ۵ شبکه‌ی عصبی Denoising Autoencoder در کنار یک مدل LightGBM بود. این نتیجه نشان داد که شبکه‌های عصبی می‌توانند برای داده‌های جدولی نیز مفید باشند و استفاده از قدرت یادگیری بدون ناظر روش‌هایی مانند Autoencoderها می‌تواند کماکان در استخراج ویژگی‌های مفید در حل مسائل داده‌کاوی، مؤثر باشد.
https://www.kaggle.com/c/porto-seguro-safe-driver-prediction/discussion/44629