Small Data Science for Russian Adventurers
11.2K subscribers
303 photos
3 videos
13 files
705 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#курс
Качественный курс “Введение в анализ данных и машинное обучение” от читателя моего блога (кстати, если есть кому что показать - присылайте). Готовился для школьников, но, мне кажется, подходит любым начинающим в ML. Очень симпатично оформлен.
https://yangx.topseries-ru.github.io/course/README.html
#интересно
Статистика по прошлому году. Больше всего авторов (45) у статьи: Task-Oriented Dialogue as Dataflow Synthesis.
Самое длинное название статьи: Code-Switching Patterns Can Be an Effective Route to Improve Performance of Downstream NLP Applications: A Case Study of Humour, Sarcasm and Hate Speech Detection.
Самое короткое название: Ode to an ODE.
(взято отсюда: https://www.marekrei.com/blog/ml-and-nlp-publications-in-2020/)
#курс
Наконец "дошли руки" посмотреть курс NLP, ссылку на которую в чате канала кидал Юра Кашницкий. Очень классно всё сделано. И дело не только в оформлении, хорошо сделаны объяснения и ссылки на релевантные работы. Всем, кто изучает ML, обязательно к проработке...
https://lena-voita.github.io/nlp_course.html
#мысли
Одно из недооценённых направлений в ML (на мой взгляд) - это резервуарные вычисления. Подобные архитектуры упоминаются, например, в книге Гудфелло, но совсем мельком, занимались ими лишь несколько исследователей. С точки зрения современных архитектур, это RNN в которых специальным образом выбраны и зафиксированы веса, соответствующие рекуррентным связям, а обучаются все остальные. Это позволяет избежать проблемы взрыва и затухания градиента. Есть много (не обнародованных) хаков, как эффективно такие сети применять на практике, но вот хайпа вокруг них никогда не было. Для тех, кто хочет погрузиться в теорию резервуарных вычислений, есть, например такое видео:
https://www.youtube.com/watch?v=HfltqZa2Fco
#забавно
Есть такой известный термин ablation, который обычно используется в устойчивом словосочетании ablation study - это обоснование существенной неупрощаемости предложенного решения. Обычно в каждой новой статье придумывается много хаков для достижения SOTA-ы: предобучение на новом датасете, аугментации, другие функции активации, новые нормировки и т.п. Чтобы обосновать, что всё что придумали и описали в работе реально важно пытаются немного упростить описанное решение, отказавшись от каких-то нововведений. В идеале оказывается, что любой отказ только ухудшает качество.

Так вот, я никогда не задумывался, как этот термин сказать по-русски... Сегодня просматривая хабр наткнулся на перевод, показавшийся мне неприличным... но такое слово есть в русском языке (это я просто не знал).
Каким фреймворком для глубокого обучения Вы пользуетесь? (можно выбрать несколько вариантов):
Anonymous Poll
81%
Pytorch
29%
TensorFlow
29%
Keras
2%
MXNet
4%
FastAI
0%
CNTK
0%
Chainer
1%
Theano
6%
другой
Не думал, что 20 комментариев сходу может набрать опрос по фрейворкам, причём с нейтральной формулировкой, а не так "Давайте выберем самый крутой..."
Для желающих что-то изменить в опросе, обратите внимание что Kaggle-опрос и любой из top-10 гугловской выдачи обладает такими же "недостатками" (разве что я JAX не указал), поэтому атакуйте сначала Kaggle-сообщество (там более 20 000 опрошенных, опрос имеет больший вес в IT-сообществе и не отражает личного любопытства автора ;)
https://www.kaggle.com/kaggle-survey-2020

П.С. Кстати, заметьте прогнозируемое, но тем не менее любопытное несоответствие популярности TF vs Pytorch на кэгле и здесь...
#конференции
Научная школа по финансовой математике в Сочи
https://sochisirius.ru/obuchenie/graduates/smena874/4195
#юмор
Для работающих со звуком - прямо в точку;)
#конференции
Доклад Марии Когадеевой (кстати, выпускницы нашей кафедры;), а сейчас PhD from EMBL Heidelberg) "Integrating metabolomics and transcriptomics to explore host-microbiome interactions"
https://ucdavis.zoom.us/meeting/register/tJwpdeytrTkpGNYvzczugTGRTmgZGXGS4ViX
#визуализация
Самая странная визуализация, которую я видел в этом году... тут и хотдоги и марихуана. Что хотел передать этим автор неизвестно...