یادگیری ماشین
3.42K subscribers
21 photos
2 videos
26 files
138 links
加入频道
Channel photo updated
ارائه‌ی خانم فِی فِی لی (از پژوهشگران برجسته‌ی حوزه‌ی بینایی ماشین و دانشیار دانشگاه استنفورد) در کنفرانس TED که در تاریخ ۳ فروردین ۹۴ در وب‌سایت TED بارگذاری شده است. ایشان از اعضای اصلی تیم جمع‌آوری کننده‌ی مجموعه داده‌ی Imagenet هستند که این مجموعه، نقش به سزایی در پیشرفت‌های قابل توجه شش سال اخیر در حوزه‌ی بینایی ماشین داشته است. در بخشی از این ارائه، ایشان راجع به پیشینه‌ی جمع‌آوری این مجموعه داده صحبت می‌کنند.
یکی از نکات مطرح شده در ارائه: انسان بطور متوسط در هر ۲۰۰ میلی ثانیه، زاویه‌ی دید خود را تغییر می‌دهد، یعنی در هر ثانیه بطور متوسط پنج تصویر جدید ثبت می‌کند. بنابراین، نوزاد انسان در سال‌های اولیه‌ی زندگی خود حجم قابل توجهی از تصاویر را برای پردازش به مغز خود تحویل می‌دهد. همین موضوع، بعنوان انگیزه‌ی اصلی جمع‌آوری Imagenet بیان شده است.
https://www.youtube.com/watch?v=40riCqvRoMs
👍1
قطعه‌ای از تاریخ: لغت هوش مصنوعی (artificial intelligence) توسط مرحوم پروفسور جان مک‌کارتی در سال ۱۹۵۵ ابداع شد. ایشان در سال ۱۹۶۳ آزمایشگاه هوش مصنوعی دانشگاه استنفورد را راه‌اندازی کردند. آزمایشگاه هوش مصنوعی استنفورد، یکی از اولین آزمایشگاه‌های هوش مصنوعی دنیا می‌باشد (در کنار آزمایشگاه هوش مصنوعی دانشگاه ام‌آی‌تی). مدیر فعلی آزمایشگاه هوش مصنوعی استنفورد،‌خانم دکتر فِی فِی لی هستند که ویدئوی ارائه‌ی ایشان در کنفرانس TED را در بالا می‌توانید مشاهده کنید.
👍1
طبق تقسیم‌بندی ارائه شده توسط پروفسور Pedro Domingos، پژوهشگرانی را که در حوزه‌ی هوش مصنوعی کار کرده‌اند، می‌توان به پنج دسته تقسیم نمود:
دسته‌ی اول: نمادگراها (Symbolists): کسانی‌که بدنبال مدل کردن حقایق مبتنی بر نمادها و حل مسائل با استفاده از استنتاج‌های منطقی هستند.
دسته‌ی دوم: اتصال‌گراها (Connectionists): کسانی‌که با الهام گرفتن از اتصالات بین نورون‌ها در مغز، مدل‌هایی می‌سازند که فرآیند یادگیری موجود در مغز را تقلید کند. شبکه‌های عصبی مصنوعی از موفق‌ترین دستاوردهای این پژوهشگران می‌باشد.
دسته‌ی سوم: تکامل‌گراها (Evolutionaries): این دسته معتقدند که وقتی تکامل توانسته است موجوداتی به هوشمندی انسان تولید کند، می‌توان با الهام گرفتن از تکامل، ماشین‌های هوشمند ساخت. الگوریتم‌های ژنتیک و برنامه‌نویسی ژنتیک نمونه‌هایی از دستاوردهای این پژوهشگران هستند.
دسته‌ی چهارم: بیزین‌گراها (Bayesians): این دسته بر مدل‌سازی‌های احتمالاتی و استنتاج‌های مبتنی بر تئوری احتمالات (که روش بیز پایه‌ی آن است) تمرکز دارند. مدل‌های گرافیکی احتمالاتی مانند شبکه‌های بیزی از دستاوردهای این پژوهشگران هستند.
دسته‌ی پنجم: شباهت‌گراها (Analogizers): افرادی که ماشین را به‌گونه‌ای آموزش می‌دهند که برای حل یک مسئله، از مسائل حل شده‌ی شبیه به آن مسئله استفاده کند. روش‌های پایه‌ی طبقه‌بندی مانند روش نزدیک‌ترین همسایه و ماشین‌های بردار پشتیبان (SVM) از دستاوردهای این پژوهشگران می‌باشند.

لینک ارائه در یوتیوب: https://www.youtube.com/watch?v=iUotc1Z_3es
لینک فایل پی‌دی‌اف ارائه: https://learning.acm.org/webinar_pdfs/PedroDomingos_FTFML_WebinarSlides.pdf
👍1
شبکه‌های عصبی مصنوعی، تاریخچه‌ی پر فراز و نشیب و جذابی داشته‌اند. اولین مدل ریاضی شبکه‌های عصبی، حدود ۷۵ سال پیش (۱۹۴۳ میلادی) در مقاله‌ی کلیدی آقایان McCulloch وPitts با عنوان زیر معرفی شد.
A Logical Calculus of Ideas Immanent in Nervous Activity
در اواخر دهه‌ی ۵۰ میلادی، موفقیت‌های نمادگرایان (Symbolists) باعث به حاشیه رفتن شبکه‌های عصبی شد. با این وجود، مدل معروف ارائه شده توسط رزنبلت (Rosenblatt) با نام پرسپترون (معرفی شده در سال ۱۹۵۸)، حوزه‌ی شبکه‌های عصبی را زنده نگاه داشت. وی پیش‌بینی کرده بود که پرسپترون می‌تواند نهایتاً یاد بگیرد، تصمیم‌گیری کند و ترجمه‌ی بین زبانی انجام دهد.
در سال ۱۹۶۹ انتشار کتابی با عنوان Perceptrons توسط مینسکی و پاپارت (Minsky و Papert) باعث ایجاد یک خزان در تحقیقات مربوط به شبکه‌های عصبی شد. در این کتاب، محدودیت‌های شبکه‌های عصبی فاقد لایه‌ی مخفی،‌ بطور دقیق اثبات شد و همچنین، درباره‌ی پیچیدگی یادگیری شبکه‌های چندلایه، ادعاهای بدون اثباتی مطرح شد. این کتاب باعث شد که بودجه‌های تحقیقاتی مربوط به شبکه‌های عصبی در کل دهه‌ی هفتاد و اوایل دهه‌ی هشتاد میلادی به‌شدت کاهش یابد. البته در همین دوره کارهای محدودی انجام شد که مهم‌ترین آنها، استفاده از روش پس‌انتشار خطا (error backpropagation) توسط آقای Paul Werbos برای آموزش پارامترهای موجود در لایه‌های مخفی شبکه‌های عصبی می‌باشد (این کار در تز دکترای ایشان در سال ۱۹۷۴ میلادی در دانشگاه هاروارد انجام پذیرفت).
در اواسط دهه‌ی ۸۰ میلادی، نمایش موفقیت الگوریتم پس‌انتشار خطا در یادگیری بازنمایی مناسب داده‌ها در لایه‌های مخفی شبکه‌های عصبی توسط دانشمندانی مانند Rumelhart، Hinton و Ronald Williams به خزان شبکه‌های عصبی پایان داد و حیاتی جدید در تحقیقات این حوزه را آغاز کرد. متأسفانه آقای رزنبلت نزدیک دو سال پس از انتشار کتاب Perceptrons در روز تولد ۴۳ سالگی خود در یک تصادف قایق‌رانی جان باخت و نتوانست شاهد پیشرفت شبکه‌های عصبی باشد. آقایان مینسکی و پاپارت هر دو در سال گذشته‌ی میلادی (۲۰۱۶) در سن ۸۸ سالگی درگذشتند.
حدود بیست سال تحقیقات روی شبکه‌های عصبی با فراز و نشیب‌هایی دنبال شد تا این‌که حدود ده سال پیش، موج جدیدی از موفقیت‌های شبکه‌های عصبی به راه افتاد. موفقیت‌های حاصل شده در این ده سال، حقیقتاً حیرت‌آور هستند. به‌عنوان یک نمونه، در اواخر سال ۲۰۱۵ میلادی، ماشین‌های مبتنی بر شبکه‌های عصبی توانستند در تشخیص اشیاء موجود در تصاویر طبیعی، دقتی بالاتر از دقت انسان بدست آورند (در مجموعه‌ای بزرگ از تصاویر از ۱۰۰۰ دسته‌ی موجود). حیرت‌آور بودن این دستاوردها حتی برای محققین تراز اول هوش مصنوعی نیز قابل کتمان نیست. به‌عنوان مثال، خانم Daphne Koller در رخداد google IO 2017 بیان می‌کنند که ما پنج سال پیش تخمین می‌زدیم که ۲۰ سال دیگر در جایی باشیم که اکنون هستیم (بطور خاص در مسئله‌ی تشخیص اشیاء در تصاویر). البته این موفقیت‌ها محدود به مسائل مربوط به بینایی ماشین نبوده و در کاربردهای متنوع دیگر از جمله تشخیص صحبت، پردازش زبان‌های طبیعی، اتومبیل‌های خودران، کاربردهای پزشکی، کاربردهای هنری و غیره نیز خود را نشان داده است.
راجع به دلایل موفقیت ده سال اخیر شبکه‌های عصبی (بطور خاص، شبکه‌های عصبی عمیق) بحث‌های فراوانی مطرح می‌شود که بیان دقیق آنها نیازمند مطلبی مجزا می‌باشد.
👍2
خبر: برای اولین بار، سایت kaggle میزبان مسابقه‌ی ILSVRC مربوط به ImageNet می‌باشد. البته هنوز امکان ارسال کد وجود ندارد، ولی داده‌ها در سایت بارگذاری شده‌اند و همچنین، امکان پرسش و پاسخ در انجمن وجود دارد. توجه کنید که بدلیل محدودیت‌هایی که برای آی‌پی‌های ایران اِعمال می‌شود، ممکن است لازم باشد با آی‌پی غیر ایران به سایت kaggle دسترسی پیدا کنید.
پ.ن. این مسابقه، همان رقابتی است که در سال ۲۰۱۲ با شبکه‌ی الکس‌نت باعث جلب توجه به شبکه‌های عصبی کانولوشنی گردید.
https://www.kaggle.com/c/imagenet-object-localization-challenge/
جمله‌ای در اهمیت شرکت در رقابت‌های Kaggle:
آقای جرمی هاوارد (Jeremy Howard) از مهندسین به‌نام حوزه‌ی یادگیری ماشین و علوم داده‌ها هستند. عمده‌ی شهرت ایشان در بین ایرانیان احتمالاً بدلیل ارائه‌ی دروس یادگیری عمیق عملی (practical deep learning) است. در جلسه‌ی هفتم این دوره، ایشان جمله‌ای راجع به رقابت‌های موجود در سایت Kaggle ذکر می‌کنند و بیان می‌کنند که “من بسیار بیشتر از هرکار دیگری با شرکت در این رقابت‌ها آموخته کسب کرده‌ام”. البته با بررسی جملات قبلی ایشان، ظاهراً تأکید ایشان بیشتر بر رقابت‌های فعال و جدید موجود در kaggle است نه رقابت‌های قدیمی. اصل جمله‌ی ایشان:
I hope some of you will consider seriously investing — like putting an hour a day in to a competition. I learn far more doing that than anything else I have ever done.
ده مقاله‌ی کلاسیک مربوط به هوش مصنوعی به انتخاب سرویس اسکالر گوگل. این مقالات در سال ۲۰۰۶ منتشر شده‌اند و طی ده سال گذشته توانسته‌اند بیشترین ارجاعات را کسب کنند.
یکی از پایگاه داده‌های ساده ولی پراستفاده در یادگیری ماشین، MNIST است که شامل ۶۰۰۰۰ نمونه‌ی آموزشی و ۱۰۰۰۰ نمونه‌ی آزمایشی از تصاویر ارقام دست‌نویس با ابعاد ۲۸ در ۲۸ می‌باشد. در چند روز گذشته یک پایگاه جدید با همان فرمت ولی برای تشخیص ده نوع لباس و کیف و کفش با نام Fashion-MNIST معرفی شده است که در لینک زیر قابل دریافت می‌باشد:
https://github.com/zalandoresearch/fashion-mnist
این پایگاه توسط آقای Yann LeCun (از طراحان اصلی MNIST و مدیر فعلی بخش تحقیقات هوش مصنوعی فیسبوک) در صفحه‌ی ایشان نیز معرفی شده است👇
👍1
جهت اطلاع: امروز ۱۳ سپتامبر، ۲۵۶ امین روز سال میلادی بعنوان روز برنامه‌نویس در روسیه شناخته می‌شود. ۲۵۶ تعداد اعداد متمایزی است که می‌توان در یک بایت نمایش داد. همچنین این عدد بزرگ‌ترین توان دو کوچک‌تر از تعداد روزهای سال است.
این نمودار (به همراه توضیحات ارائه شده در منبع زیر) نشان می‌دهد که عمده نیروی محرکه‌ی پایتون در سال‌های اخیر، علوم داده‌ها بوده است.
https://stackoverflow.blog/2017/09/14/python-growing-quickly/?cb=1
بیش از صد سوالی که در مصاحبه‌ی شغلی مربوط به علوم داده‌ها در شرکت‌های بزرگ مثل گوگل، مایکروسافت، اپل و غیره پرسیده شده‌اند:
http://www.learndatasci.com/data-science-interview-questions/?utm_source=mybridge&utm_medium=web&utm_campaign=read_more
مجموعه‌ای از اصطلاحات مربوط به یادگیری ماشین. بدلیل تحریم آی‌پی‌های ایران در برخی از سرویس‌های گوگل، با آی‌پی متفاوت برای دسترسی به لینک زیر استفاده نمایید:
https://developers.google.com/machine-learning/glossary
👍1
حدود چهار ماه قبل، سایت کگل که به یک میلیون کاربر رسیده بود، بخشی از تجربیات و اتفاقات بیش از هفت سال حیات خود را در قالب تصویر فوق به اشتراک گذاشت. یکی از نکات جالبی که به آن اشاره شده بود، موفقیت روش جنگل تصادفی به‌عنوان پراستفاده‌ترین روش در بین تیم‌های برنده در رقابت‌ها در فاصله‌ی سال‌های ۲۰۱۰ تا ۲۰۱۱ بود. روش جنگل تصادفی یکی از روش‌های ترکیب درخت‌های تصمیم است. اخیراً یکی دیگر از روش‌های ترکیب با عنوان gradient boosting موفقیت‌های قابل توجهی در رقابت‌های کگل کسب کرده است و بسیاری از تیم‌های برنده از این روش بهره برده‌اند. بطور خاص، کتابخانه‌ی XGBoost که پیاده‌سازی کارایی از این روش ارائه داده است، به وفور توسط شرکت‌کنندگان مورد استفاده قرار گرفته است. برای آشنایی مقدماتی با این روش، به آدرس زیر مراجعه کنید:
https://xgboost.readthedocs.io/en/latest/model.html
دوستان علاقه‌مند به مبحث شبکه‌های بیزی، به ارائه‌ی زیر که در سمینار زمستانی دانشگاه صنعتی شریف در دی‌ماه ۹۵ برگزار شده است، توجه کنند. این ارائه در دو بخش انجام شده است که در بخش اول (تا دقیقه‌ی ۲۳) کلیاتی از شبکه‌های بیزی معرفی شده است و در بخش دوم، یکی از مقالات جدید این حوزه با موضوع "بکارگیری دانش انسانی در فرآیند یادگیری ساختار شبکه‌های بیزی" ارائه شده است.
https://www.youtube.com/watch?v=JTndcNGmAYw&t=1494s
اسلایدهای ارائه را هم می‌توانید از طریق آدرس زیر دریافت نمایید:
http://wss.ce.sharif.edu/assets/slides/hossein-amirkhani.pdf
بیش از ۶۰ درصد مقالات کنفرانسی مربوط به یادگیری ماشین دارای نسخه‌ای در سرویس آرکایو می‌باشند. همچنین، رشد انتشار مقالات در آرکایو مربوط به حوزه‌های بینایی ماشین و پردازش زبان طبیعی، چشمگیر بوده است.