جهت اطلاع: امروز ۱۳ سپتامبر، ۲۵۶ امین روز سال میلادی بعنوان روز برنامهنویس در روسیه شناخته میشود. ۲۵۶ تعداد اعداد متمایزی است که میتوان در یک بایت نمایش داد. همچنین این عدد بزرگترین توان دو کوچکتر از تعداد روزهای سال است.
این نمودار (به همراه توضیحات ارائه شده در منبع زیر) نشان میدهد که عمده نیروی محرکهی پایتون در سالهای اخیر، علوم دادهها بوده است.
https://stackoverflow.blog/2017/09/14/python-growing-quickly/?cb=1
https://stackoverflow.blog/2017/09/14/python-growing-quickly/?cb=1
بیش از صد سوالی که در مصاحبهی شغلی مربوط به علوم دادهها در شرکتهای بزرگ مثل گوگل، مایکروسافت، اپل و غیره پرسیده شدهاند:
http://www.learndatasci.com/data-science-interview-questions/?utm_source=mybridge&utm_medium=web&utm_campaign=read_more
http://www.learndatasci.com/data-science-interview-questions/?utm_source=mybridge&utm_medium=web&utm_campaign=read_more
هجده ویدئوی آموزشی مناسب برای یادگیری تنسورفلو (چارچوب پردازش عددی و یادگیری ماشین توسعه داده شده توسط گوگل):
https://www.youtube.com/watch?v=wuo4JdG3SvU&list=PL9Hr9sNUjfsmEu1ZniY0XpHSzl5uihcXZ
https://www.youtube.com/watch?v=wuo4JdG3SvU&list=PL9Hr9sNUjfsmEu1ZniY0XpHSzl5uihcXZ
YouTube
TensorFlow Tutorial #01 Simple Linear Model
How to make a simple model in TensorFlow for recognizing handwritten digits from the MNIST data-set.
This tutorial has been updated to work with TensorFlow 2.1 and possibly later versions using "v.1 compatibility mode".
https://github.com/Hvass-Labs/TensorFlow…
This tutorial has been updated to work with TensorFlow 2.1 and possibly later versions using "v.1 compatibility mode".
https://github.com/Hvass-Labs/TensorFlow…
مجموعهای از اصطلاحات مربوط به یادگیری ماشین. بدلیل تحریم آیپیهای ایران در برخی از سرویسهای گوگل، با آیپی متفاوت برای دسترسی به لینک زیر استفاده نمایید:
https://developers.google.com/machine-learning/glossary
https://developers.google.com/machine-learning/glossary
Google for Developers
Machine Learning Glossary | Google for Developers
👍1
حدود چهار ماه قبل، سایت کگل که به یک میلیون کاربر رسیده بود، بخشی از تجربیات و اتفاقات بیش از هفت سال حیات خود را در قالب تصویر فوق به اشتراک گذاشت. یکی از نکات جالبی که به آن اشاره شده بود، موفقیت روش جنگل تصادفی بهعنوان پراستفادهترین روش در بین تیمهای برنده در رقابتها در فاصلهی سالهای ۲۰۱۰ تا ۲۰۱۱ بود. روش جنگل تصادفی یکی از روشهای ترکیب درختهای تصمیم است. اخیراً یکی دیگر از روشهای ترکیب با عنوان gradient boosting موفقیتهای قابل توجهی در رقابتهای کگل کسب کرده است و بسیاری از تیمهای برنده از این روش بهره بردهاند. بطور خاص، کتابخانهی XGBoost که پیادهسازی کارایی از این روش ارائه داده است، به وفور توسط شرکتکنندگان مورد استفاده قرار گرفته است. برای آشنایی مقدماتی با این روش، به آدرس زیر مراجعه کنید:
https://xgboost.readthedocs.io/en/latest/model.html
https://xgboost.readthedocs.io/en/latest/model.html
دوستان علاقهمند به مبحث شبکههای بیزی، به ارائهی زیر که در سمینار زمستانی دانشگاه صنعتی شریف در دیماه ۹۵ برگزار شده است، توجه کنند. این ارائه در دو بخش انجام شده است که در بخش اول (تا دقیقهی ۲۳) کلیاتی از شبکههای بیزی معرفی شده است و در بخش دوم، یکی از مقالات جدید این حوزه با موضوع "بکارگیری دانش انسانی در فرآیند یادگیری ساختار شبکههای بیزی" ارائه شده است.
https://www.youtube.com/watch?v=JTndcNGmAYw&t=1494s
اسلایدهای ارائه را هم میتوانید از طریق آدرس زیر دریافت نمایید:
http://wss.ce.sharif.edu/assets/slides/hossein-amirkhani.pdf
https://www.youtube.com/watch?v=JTndcNGmAYw&t=1494s
اسلایدهای ارائه را هم میتوانید از طریق آدرس زیر دریافت نمایید:
http://wss.ce.sharif.edu/assets/slides/hossein-amirkhani.pdf
YouTube
Exploiting Experts' Knowledge for Structure Learning of Bayesian Networks
بهترین نرمافزارهای متنباز مربوط به یادگیری ماشین سال ۲۰۱۷ به انتخاب InfoWorld:
Synaptic
Scikit-learn
Caffe2
H2O
PyTorch
CatBoost
XGBoost
GNU Octave
TensorFlow
Microsoft Cognitive Toolkit
Apache MXNet
Apple Core ML
منبع:
https://www.infoworld.com/article/3228224/machine-learning/bossie-awards-2017-the-best-machine-learning-tools.html
Synaptic
Scikit-learn
Caffe2
H2O
PyTorch
CatBoost
XGBoost
GNU Octave
TensorFlow
Microsoft Cognitive Toolkit
Apache MXNet
Apple Core ML
منبع:
https://www.infoworld.com/article/3228224/machine-learning/bossie-awards-2017-the-best-machine-learning-tools.html
InfoWorld
Best of open source: The best machine learning tools
InfoWorld picks the best open source software for machine learning and deep learning
معرفی مفاهیم یادگیری ماشین به بیان بسیار ساده، بطوریکه برای دانشآموزان نیز قابل درک باشد:
http://blog.stephenwolfram.com/2017/05/machine-learning-for-middle-schoolers/
http://blog.stephenwolfram.com/2017/05/machine-learning-for-middle-schoolers/
Stephenwolfram
Machine Learning for Middle Schoolers—Stephen Wolfram Writings
How machine learning works and real-world examples of where it can be used are highlighted in the new edition of Stephen Wolfram’s programming book.
https://www.youtube.com/playlist?list=PLievC1UeaSOD3EBaJaHstTKIXS51Sfjwo
لینک فوق شامل سی ویدئو راجع به آموزش یادگیری سریعتر و بهتر توسط خانم دکتر باربارا اوکلی استاد دانشگاه اوکلند میباشد. هر ویدئو معمولاً کمتر از ۱۰ دقیقه است.
پانوشت: این ویدئوها بدلیل اهمیت شناخت دقیقتر فرآیند یادگیری انسانی در کانال معرفی شدهاند و در آنها بحثی از یادگیری ماشین نمیشود. شناخت فرآیند یادگیری انسانی کمک میکند در هر زمینهای، بتوانیم بهتر از پتانسیل مغزمان استفاده نماییم.
لینک فوق شامل سی ویدئو راجع به آموزش یادگیری سریعتر و بهتر توسط خانم دکتر باربارا اوکلی استاد دانشگاه اوکلند میباشد. هر ویدئو معمولاً کمتر از ۱۰ دقیقه است.
پانوشت: این ویدئوها بدلیل اهمیت شناخت دقیقتر فرآیند یادگیری انسانی در کانال معرفی شدهاند و در آنها بحثی از یادگیری ماشین نمیشود. شناخت فرآیند یادگیری انسانی کمک میکند در هر زمینهای، بتوانیم بهتر از پتانسیل مغزمان استفاده نماییم.
YouTube
- YouTube
موفقیت دیگری برای شبکههای عصبی:
طی دو ماه اخیر، رقابتی در سایت کگل با عنوان Porto Seguro’s Safe Driver Prediction توسط یک شرکت بیمهی برزیلی با هدف پیشبینی اینکه آیا یک راننده در سال آینده برای گرفتن خسارت به بیمه مراجعه میکند یا نه برگزار شد. این رقابت از تاریخ ۲۹ سپتامبر (۷ مهر) لغایت ۳۰ نوامبر ۲۰۱۷ (۹ آذر ۱۳۹۶) برگزار شد و با استقبال قابل توجهی روبرو شد، بطوریکه ۶۰۶۲ نفر در قالب ۵۳۵۵ تیم در این رقابت شرکت کردند. از آنجاییکه جنس دادهی مورد استفاده در این رقابت از جنس دادههای جدولی بود، از ابتدا چنین به نظر رسید که شبکههای عصبی در این رقابت نمیتوانند موفق باشند و کسانی هم که از این رویکرد برای حل مسئله استفاده میکردند، موفقیت قابل توجهی را گزارش نکردند. درعوض، روشهای مبتنی بر بوستینگ درختهای تصمیم (مانند XGBoost و LightGBM) بسیار مورد توجه قرار گرفتند و تا پایان رقابت تصور میشد که مناسبترین روش برای حل چنین مسائلی، استفاده از این ابزارها میباشد. با پایان یافتن رقابت و مشخص شدن جایگاه افراد مختلف شرکتکننده، نفر اول رقابت در قالب پستی، رویکرد مورد استفادهی خود برای حل این مسئله را شرح داد که در لینک زیر میتوانید مطالعه کنید (با آیپی غیر ایران وارد کگل شوید!). رویکرد مورد استفادهی ایشان، استفاده از ۵ شبکهی عصبی Denoising Autoencoder در کنار یک مدل LightGBM بود. این نتیجه نشان داد که شبکههای عصبی میتوانند برای دادههای جدولی نیز مفید باشند و استفاده از قدرت یادگیری بدون ناظر روشهایی مانند Autoencoderها میتواند کماکان در استخراج ویژگیهای مفید در حل مسائل دادهکاوی، مؤثر باشد.
https://www.kaggle.com/c/porto-seguro-safe-driver-prediction/discussion/44629
طی دو ماه اخیر، رقابتی در سایت کگل با عنوان Porto Seguro’s Safe Driver Prediction توسط یک شرکت بیمهی برزیلی با هدف پیشبینی اینکه آیا یک راننده در سال آینده برای گرفتن خسارت به بیمه مراجعه میکند یا نه برگزار شد. این رقابت از تاریخ ۲۹ سپتامبر (۷ مهر) لغایت ۳۰ نوامبر ۲۰۱۷ (۹ آذر ۱۳۹۶) برگزار شد و با استقبال قابل توجهی روبرو شد، بطوریکه ۶۰۶۲ نفر در قالب ۵۳۵۵ تیم در این رقابت شرکت کردند. از آنجاییکه جنس دادهی مورد استفاده در این رقابت از جنس دادههای جدولی بود، از ابتدا چنین به نظر رسید که شبکههای عصبی در این رقابت نمیتوانند موفق باشند و کسانی هم که از این رویکرد برای حل مسئله استفاده میکردند، موفقیت قابل توجهی را گزارش نکردند. درعوض، روشهای مبتنی بر بوستینگ درختهای تصمیم (مانند XGBoost و LightGBM) بسیار مورد توجه قرار گرفتند و تا پایان رقابت تصور میشد که مناسبترین روش برای حل چنین مسائلی، استفاده از این ابزارها میباشد. با پایان یافتن رقابت و مشخص شدن جایگاه افراد مختلف شرکتکننده، نفر اول رقابت در قالب پستی، رویکرد مورد استفادهی خود برای حل این مسئله را شرح داد که در لینک زیر میتوانید مطالعه کنید (با آیپی غیر ایران وارد کگل شوید!). رویکرد مورد استفادهی ایشان، استفاده از ۵ شبکهی عصبی Denoising Autoencoder در کنار یک مدل LightGBM بود. این نتیجه نشان داد که شبکههای عصبی میتوانند برای دادههای جدولی نیز مفید باشند و استفاده از قدرت یادگیری بدون ناظر روشهایی مانند Autoencoderها میتواند کماکان در استخراج ویژگیهای مفید در حل مسائل دادهکاوی، مؤثر باشد.
https://www.kaggle.com/c/porto-seguro-safe-driver-prediction/discussion/44629
Kaggle
Porto Seguro’s Safe Driver Prediction
Predict if a driver will file an insurance claim next year.
ارائهای راجع به معرفی مختصر کتابخانههای مفید پایتون در علوم دادهها. این سخنرانی در همایش PyData در شهر ورشو در اکتبر ۲۰۱۷ ایراد شده است و به دوستانی که قصد آشنایی مختصر با مهمترین کتابخانههای پایتون مربوط به علوم دادهها و یادگیری ماشین را دارند، توصیه میشود:
https://www.youtube.com/watch?v=EBgUiuFXE3E
https://www.youtube.com/watch?v=EBgUiuFXE3E
YouTube
The Python ecosystem for Data Science: A guided tour - Christian Staudt
Description
Pythonistas have access to an extensive collection of tools for data analysis. The space of tools is best understood as an ecosystem: Libraries build upon each other, and a good library fills an ecological niche by doing certain jobs well. This…
Pythonistas have access to an extensive collection of tools for data analysis. The space of tools is best understood as an ecosystem: Libraries build upon each other, and a good library fills an ecological niche by doing certain jobs well. This…
سخنرانی آقای علی رحیمی در کنفرانس NIPS 2017. علاوه بر جذابیت اینکه یک ایرانی جایزهی test of time را در کنفرانس NIPS کسب کرده است، ده دقیقهی پایانی صحبت ایشان که وضعیت فعلی یادگیری ماشین را به کیمیاگری تشبیه میکند جالب است. ایشان جامعهی علمی را به تمرکز بر شناخت اصول حاکم بر مدلهای توسعهدادهشده بهجای پیچیدهتر کردن و غیرقابلفهمتر کردن مدلها تشویق میکنند.
https://www.youtube.com/watch?v=Qi1Yry33TQE
https://www.youtube.com/watch?v=Qi1Yry33TQE
YouTube
Ali Rahimi's talk at NIPS(NIPS 2017 Test-of-time award presentation)
بهترین ایدهی مطرح شده در یادگیری ماشین طی ده سال گذشته از نظر آقای Yann LeCun (مدیر بخش تحقیقات هوش مصنوعی فیسبوک و مبدع آموزش شبکههای عصبی کانولوشنی)، ایدهی adversarial training است که در Generative Adversarial Networks معرفی شده است. این نظر در دقیقهی ۲۹ سخنرانی زیر در دانشگاه امآیتی بیان شده است.
https://www.youtube.com/watch?v=0tEhw5t6rhc
https://www.youtube.com/watch?v=0tEhw5t6rhc
YouTube
Yann LeCun - Power & Limits of Deep Learning
Yann LeCun is Director of AI Research at Facebook, and Silver Professor of Dara Science, Computer Science, Neural Science, and Electrical Engineering at New York University, affiliated with the NYU Center for Data Science, the Courant Institute of Mathematical…
کراس (Keras) برای دوستانی که با یادگیری عمیق آشنایی دارند، کتابخانهی آشنایی است. این کتابخانه که به سادگی استفاده مشهور است، از لحاظ سرعت رشد جزء برترینها در بین چارچوبهای یادگیری عمیق میباشد. اخیراً خالق کراس (آقای Chollet) کتابی را با عنوان "یادگیری عمیق در پایتون" منتشر کرده است که بطور پایهای و با زبان ساده به معرفی مفاهیم یادگیری عمیق و استفاده از کتابخانهی کراس میپردازد. این کتاب را میتوانید در پست بعد دریافت نمایید.
دکا عنوان رقابتی داخلی و آنلاین است که از اول دی ماه شروع شده است و به مدت دو ماه ادامه دارد. هدف این رقابت که شبیه رقابتهای موجود در Kaggle میباشد، پیشبینی احتمال کلیک کاربر روی یک اعلان تبلیغاتی ارسال شده بر روی گوش تلفن همراه است. برای دوستان علاقهمند به دادهکاوی، شرکت در این رقابت توصیه میشود. در ویدئوی زیر با این رقابت بیشتر آشنا میشوید:
http://deca.pushe.co/blog/live/
http://deca.pushe.co/blog/live/
پلتفرم آموزشی سایت کگل برای آموزش مفاهیم و روشهای مرتبط با یادگیری ماشین:
https://www.kaggle.com/learn/overview
https://www.kaggle.com/learn/overview