یادگیری ماشین
3.42K subscribers
21 photos
2 videos
26 files
138 links
加入频道
بیش از صد سوالی که در مصاحبه‌ی شغلی مربوط به علوم داده‌ها در شرکت‌های بزرگ مثل گوگل، مایکروسافت، اپل و غیره پرسیده شده‌اند:
http://www.learndatasci.com/data-science-interview-questions/?utm_source=mybridge&utm_medium=web&utm_campaign=read_more
مجموعه‌ای از اصطلاحات مربوط به یادگیری ماشین. بدلیل تحریم آی‌پی‌های ایران در برخی از سرویس‌های گوگل، با آی‌پی متفاوت برای دسترسی به لینک زیر استفاده نمایید:
https://developers.google.com/machine-learning/glossary
👍1
حدود چهار ماه قبل، سایت کگل که به یک میلیون کاربر رسیده بود، بخشی از تجربیات و اتفاقات بیش از هفت سال حیات خود را در قالب تصویر فوق به اشتراک گذاشت. یکی از نکات جالبی که به آن اشاره شده بود، موفقیت روش جنگل تصادفی به‌عنوان پراستفاده‌ترین روش در بین تیم‌های برنده در رقابت‌ها در فاصله‌ی سال‌های ۲۰۱۰ تا ۲۰۱۱ بود. روش جنگل تصادفی یکی از روش‌های ترکیب درخت‌های تصمیم است. اخیراً یکی دیگر از روش‌های ترکیب با عنوان gradient boosting موفقیت‌های قابل توجهی در رقابت‌های کگل کسب کرده است و بسیاری از تیم‌های برنده از این روش بهره برده‌اند. بطور خاص، کتابخانه‌ی XGBoost که پیاده‌سازی کارایی از این روش ارائه داده است، به وفور توسط شرکت‌کنندگان مورد استفاده قرار گرفته است. برای آشنایی مقدماتی با این روش، به آدرس زیر مراجعه کنید:
https://xgboost.readthedocs.io/en/latest/model.html
دوستان علاقه‌مند به مبحث شبکه‌های بیزی، به ارائه‌ی زیر که در سمینار زمستانی دانشگاه صنعتی شریف در دی‌ماه ۹۵ برگزار شده است، توجه کنند. این ارائه در دو بخش انجام شده است که در بخش اول (تا دقیقه‌ی ۲۳) کلیاتی از شبکه‌های بیزی معرفی شده است و در بخش دوم، یکی از مقالات جدید این حوزه با موضوع "بکارگیری دانش انسانی در فرآیند یادگیری ساختار شبکه‌های بیزی" ارائه شده است.
https://www.youtube.com/watch?v=JTndcNGmAYw&t=1494s
اسلایدهای ارائه را هم می‌توانید از طریق آدرس زیر دریافت نمایید:
http://wss.ce.sharif.edu/assets/slides/hossein-amirkhani.pdf
بیش از ۶۰ درصد مقالات کنفرانسی مربوط به یادگیری ماشین دارای نسخه‌ای در سرویس آرکایو می‌باشند. همچنین، رشد انتشار مقالات در آرکایو مربوط به حوزه‌های بینایی ماشین و پردازش زبان طبیعی، چشمگیر بوده است.
بهترین نرم‌افزارهای متن‌باز مربوط به یادگیری ماشین سال ۲۰۱۷ به انتخاب InfoWorld:
Synaptic
Scikit-learn
Caffe2
H2O
PyTorch
CatBoost
XGBoost
GNU Octave
TensorFlow
Microsoft Cognitive Toolkit
Apache MXNet
Apple Core ML
منبع:
https://www.infoworld.com/article/3228224/machine-learning/bossie-awards-2017-the-best-machine-learning-tools.html
https://www.youtube.com/playlist?list=PLievC1UeaSOD3EBaJaHstTKIXS51Sfjwo

لینک فوق شامل سی ویدئو راجع به آموزش یادگیری سریع‌تر و بهتر توسط خانم دکتر باربارا اوکلی استاد دانشگاه اوکلند می‌باشد. هر ویدئو معمولاً کمتر از ۱۰ دقیقه است.
پانوشت: این ویدئوها بدلیل اهمیت شناخت دقیق‌تر فرآیند یادگیری انسانی در کانال معرفی شده‌اند و در آنها بحثی از یادگیری ماشین نمی‌شود. شناخت فرآیند یادگیری انسانی کمک می‌کند در هر زمینه‌ای، بتوانیم بهتر از پتانسیل مغزمان استفاده نماییم.
موفقیت دیگری برای شبکه‌های عصبی:
طی دو ماه اخیر، رقابتی در سایت کگل با عنوان Porto Seguro’s Safe Driver Prediction توسط یک شرکت بیمه‌ی برزیلی با هدف پیش‌بینی این‌که آیا یک راننده در سال آینده برای گرفتن خسارت به بیمه مراجعه می‌کند یا نه برگزار شد. این رقابت از تاریخ ۲۹ سپتامبر (۷ مهر) لغایت ۳۰ نوامبر ۲۰۱۷ (۹ آذر ۱۳۹۶) برگزار شد و با استقبال قابل توجهی روبرو شد، بطوری‌که ۶۰۶۲ نفر در قالب ۵۳۵۵ تیم در این رقابت شرکت کردند. از آن‌جایی‌که جنس داده‌ی مورد استفاده در این رقابت از جنس داده‌های جدولی بود، از ابتدا چنین به نظر رسید که شبکه‌های عصبی در این رقابت نمی‌توانند موفق باشند و کسانی هم که از این رویکرد برای حل مسئله استفاده می‌کردند، موفقیت قابل توجهی را گزارش نکردند. درعوض، روش‌های مبتنی بر بوستینگ درخت‌های تصمیم (مانند XGBoost و LightGBM) بسیار مورد توجه قرار گرفتند و تا پایان رقابت تصور می‌شد که مناسب‌ترین روش برای حل چنین مسائلی، استفاده از این ابزارها می‌باشد. با پایان یافتن رقابت و مشخص شدن جایگاه افراد مختلف شرکت‌کننده، نفر اول رقابت در قالب پستی، رویکرد مورد استفاده‌ی خود برای حل این مسئله را شرح داد که در لینک زیر می‌توانید مطالعه کنید (با آی‌پی غیر ایران وارد کگل شوید!). رویکرد مورد استفاده‌ی ایشان، استفاده از ۵ شبکه‌ی عصبی Denoising Autoencoder در کنار یک مدل LightGBM بود. این نتیجه نشان داد که شبکه‌های عصبی می‌توانند برای داده‌های جدولی نیز مفید باشند و استفاده از قدرت یادگیری بدون ناظر روش‌هایی مانند Autoencoderها می‌تواند کماکان در استخراج ویژگی‌های مفید در حل مسائل داده‌کاوی، مؤثر باشد.
https://www.kaggle.com/c/porto-seguro-safe-driver-prediction/discussion/44629
ارائه‌ای راجع به معرفی مختصر کتاب‌خانه‌های مفید پایتون در علوم داده‌ها. این سخنرانی در همایش PyData در شهر ورشو در اکتبر ۲۰۱۷ ایراد شده است و به دوستانی که قصد آشنایی مختصر با مهم‌ترین کتاب‌خانه‌های پایتون مربوط به علوم داده‌ها و یادگیری ماشین را دارند، توصیه می‌شود:
https://www.youtube.com/watch?v=EBgUiuFXE3E
سخنرانی آقای علی رحیمی در کنفرانس NIPS 2017. علاوه بر جذابیت این‌که یک ایرانی جایزه‌ی test of time را در کنفرانس NIPS کسب کرده است، ده دقیقه‌ی پایانی صحبت ایشان که وضعیت فعلی یادگیری ماشین را به کیمیاگری تشبیه می‌کند جالب است. ایشان جامعه‌ی علمی را به تمرکز بر شناخت اصول حاکم بر مدل‌های توسعه‌داده‌شده به‌جای پیچیده‌تر کردن و غیرقابل‌فهم‌تر کردن مدل‌ها تشویق می‌کنند.
https://www.youtube.com/watch?v=Qi1Yry33TQE
بهترین ایده‌ی مطرح شده در یادگیری ماشین طی ده سال گذشته از نظر آقای Yann LeCun (مدیر بخش تحقیقات هوش مصنوعی فیسبوک و مبدع آموزش شبکه‌های عصبی کانولوشنی)، ایده‌ی adversarial training است که در Generative Adversarial Networks معرفی شده است. این نظر در دقیقه‌ی ۲۹ سخنرانی زیر در دانشگاه ام‌آی‌تی بیان شده است.
https://www.youtube.com/watch?v=0tEhw5t6rhc
کراس (Keras) برای دوستانی که با یادگیری عمیق آشنایی دارند، کتابخانه‌ی آشنایی است. این کتابخانه که به سادگی استفاده مشهور است، از لحاظ سرعت رشد جزء برترین‌ها در بین چارچوب‌های یادگیری عمیق می‌باشد. اخیراً خالق کراس (آقای Chollet) کتابی را با عنوان "یادگیری عمیق در پایتون" منتشر کرده است که بطور پایه‌ای و با زبان ساده به معرفی مفاهیم یادگیری عمیق و استفاده از کتابخانه‌ی کراس می‌پردازد. این کتاب را می‌توانید در پست بعد دریافت نمایید.
دکا عنوان رقابتی داخلی و آنلاین است که از اول دی ماه شروع شده است و به مدت دو ماه ادامه دارد. هدف این رقابت که شبیه رقابت‌های موجود در Kaggle می‌باشد، پیش‌بینی احتمال کلیک کاربر روی یک اعلان تبلیغاتی ارسال شده بر روی گوش تلفن همراه است. برای دوستان علاقه‌مند به داده‌کاوی، شرکت در این رقابت توصیه می‌شود. در ویدئوی زیر با این رقابت بیشتر آشنا می‌شوید:
http://deca.pushe.co/blog/live/
پلت‌فرم آموزشی سایت کگل برای آموزش مفاهیم و روش‌های مرتبط با یادگیری ماشین:
https://www.kaggle.com/learn/overview
نکته‌ای راجع به بیش‌برازش به همراه یک نمونه