Small Data Science for Russian Adventurers
11.2K subscribers
303 photos
3 videos
13 files
705 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#код
Небольшой лайфхак для тех, кто перешёл из Jupyter notebook в Jupyter lab. Непривычно пропало меню работы с изображением, когда щёлкаешь правой кнопкой мыши по картинкам. Вместо этого выводится стандартное меню Lab. Чтобы вернуть "классическое", надо удерживать клавишу Shift при правом клике мыши;)
#забавно
Интересно, что учебные пособия по теории вероятностей стали писать уже для ДОшкольников:
Wagenmakers, Beekman 2020 Bayesian Thinking.pdf
22.5 MB
В блоге Bayesian Spectacles выложили иллюстрированное введение в байесовские методы для дошкольников.

https://www.bayesianspectacles.org/out-now-bayesian-thinking-for-toddlers/
#образование
Из малоизвестных, но интересных курсов... Алгоритмическая теория игр (видео, правда, есть не на все лекции):
https://www.cis.upenn.edu/~aaroth/courses/agtS20.html
#видео
Сравнение трёх учебных заведений по анализу данных. Есть неточности и почему-то не сравниваются программы центральных курсов, преподавательский и студенческий составы, условия учёбы и организация неучебных мероприятий. Но зато взвешенная оценка без перекосов, полезно для выбирающих:
https://www.youtube.com/watch?v=orygeynBakI
#обзор
Интересно, что по рекуррентным сетям (RNN) почти нет свежих обзоров, видимо, Трансформеры всё заасфальтировали... последний "универсальный" обзор (про всё-всё-всё в RNN), который я нашёл датирован началом 2018 года:
Recent Advances in Recurrent Neural Networks
https://arxiv.org/abs/1801.01078
#забавно
Немного про "тренинги" и "коучев"...
#код
Не так давно NVIDIA выпустила фрейворк NeMo для создания разговорного ИИ. Мои знакомые отнеслись к нему с понятной долей подозрения (ещё сырой, никто не использует и т.п.), но стали появляться статьи, в которых он используется: https://arxiv.org/pdf/2010.13886.pdf
NeMo
https://github.com/NVIDIA/NeMo
Forwarded from DL in biology (Зоя Червонцева)
В пятницу тринадцатого в 19:00 Булат Загидуллин из группы Network Pharmacology for Precision Medicine в University of Helsinki расскажет, как с помощью ML ищут новые лекарства и механизмы работы уже существующих. На примере проекта LINCS и работ с датасетом Connectivity Map (CMap) Булат расскажет про возможные подходы и методы построения моделей. Это будет совместный семинар с сообществом Sberloga.

CMap — это самый большой датасет экспрессионных данных (1.5 миллиона профилей) до и после добавления потенциальных лекарств в разных клеточных линиях. Последняя версия датасета была опубликована в 2017 году и широко используется в области (более 300 цитирований), — а прямо сейчас на части данных этого датасета идет соревнование Kaggle. Участникам предлагают предсказать механизм действия новых потенциальных лекарств. Подробнее про это соревнование на прошлой неделе на семинаре Sberloga рассказывал Андрей Лукьяненко. Слайды вот, скоро обещают и видео выложить.

Ссылка на zoom для пятничного семинара с Булатом.
#ссылка
Очень неплохие материалы выложены на сайте Олега Нагорного. И вообще, очень симпатичный личный сайт.
https://nagornyy.me/
#соревнование
На кэгле сейчас идёт очень симпатичное соревнование, я уже порекламировал его своим студентам, а в одном из курсов мы взяли его как обязательно задание. В чём плюсы:
* идеально для практики в нейронках, они здесь рулят, плюс куча кёрнелов с кодом
* задача табличная - нет специфики CV или NLP, идеально для новичков, можно сконцентрироваться на обучении сетей
* данных немного (7-слойная сеть проходит 7-fold CV на ноуте за 6 минут)
* много классов, большой дисбаланс - шанс понять, что это такое и как с этим бороться
(выше как раз была ссылка на обсуждение соревнования)
https://www.kaggle.com/c/lish-moa/