Small Data Science for Russian Adventurers
11.2K subscribers
303 photos
3 videos
13 files
705 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#забавно
Немного про "тренинги" и "коучев"...
#код
Не так давно NVIDIA выпустила фрейворк NeMo для создания разговорного ИИ. Мои знакомые отнеслись к нему с понятной долей подозрения (ещё сырой, никто не использует и т.п.), но стали появляться статьи, в которых он используется: https://arxiv.org/pdf/2010.13886.pdf
NeMo
https://github.com/NVIDIA/NeMo
Forwarded from DL in biology (Зоя Червонцева)
В пятницу тринадцатого в 19:00 Булат Загидуллин из группы Network Pharmacology for Precision Medicine в University of Helsinki расскажет, как с помощью ML ищут новые лекарства и механизмы работы уже существующих. На примере проекта LINCS и работ с датасетом Connectivity Map (CMap) Булат расскажет про возможные подходы и методы построения моделей. Это будет совместный семинар с сообществом Sberloga.

CMap — это самый большой датасет экспрессионных данных (1.5 миллиона профилей) до и после добавления потенциальных лекарств в разных клеточных линиях. Последняя версия датасета была опубликована в 2017 году и широко используется в области (более 300 цитирований), — а прямо сейчас на части данных этого датасета идет соревнование Kaggle. Участникам предлагают предсказать механизм действия новых потенциальных лекарств. Подробнее про это соревнование на прошлой неделе на семинаре Sberloga рассказывал Андрей Лукьяненко. Слайды вот, скоро обещают и видео выложить.

Ссылка на zoom для пятничного семинара с Булатом.
#ссылка
Очень неплохие материалы выложены на сайте Олега Нагорного. И вообще, очень симпатичный личный сайт.
https://nagornyy.me/
#соревнование
На кэгле сейчас идёт очень симпатичное соревнование, я уже порекламировал его своим студентам, а в одном из курсов мы взяли его как обязательно задание. В чём плюсы:
* идеально для практики в нейронках, они здесь рулят, плюс куча кёрнелов с кодом
* задача табличная - нет специфики CV или NLP, идеально для новичков, можно сконцентрироваться на обучении сетей
* данных немного (7-слойная сеть проходит 7-fold CV на ноуте за 6 минут)
* много классов, большой дисбаланс - шанс понять, что это такое и как с этим бороться
(выше как раз была ссылка на обсуждение соревнования)
https://www.kaggle.com/c/lish-moa/
#статьи
В этом году вышла куча т.н. "эффективных трансформеров", которые пригодны для обработки длинных последовательностей. У стандартного механизма self-attention сложность O(N^2), поэтому её пытаются уменьшить разными приёмами, начиная от ограничения внимания (смотреть не на все токены), заканчивая классическими приёмами (LSH, kernel tricks и т.п.) Если Вы запутались в новинках, смотрите статью с их сравнением:
https://arxiv.org/pdf/2011.04006.pdf
#реклама
12 декабря Альфа-Групп запускает online-чемпионат по Data Science: Alfa-Battle 2.0
Задачи придумали team leaders Data Science в Альфа-Банке. Призовой фонд — 1 000 000 рублей!

Ключевые даты:
12 декабря — старт чемпионата.
12 декабря - 20 января — время на решение задач.
29 января - презентация решений, награждение финалистов.

https://link.alfabattle.ru/DN75B
#видео
На постнауке вышла интересная беседа с Воронцовым. Но сколько же негатива в комментариях ("Просто туфта какая-то...", "Лектор обеспокоен будущим грозным соперником человеческому интеллекту,но сам участвует в его создании...", "Чувак первел фичу ка признак? Да он туп, как обух топора.", "Каароче говоря, лектор понятия не имеет, как функционирует нейрон"). Специально посмотрел всю беседу... по-моему там всё отлично.
https://youtu.be/Rn3GJcCQVzQ
This media is not supported in your browser
VIEW IN TELEGRAM
2016 год, человек играет произведение, написанное нейросетью Magenta. Сначала не знал, что это нейросеть — принял за композитора Дебюсси.

В принципе, Magenta и под Рахманинова успешно косит, если попросить. Тест Тьюринга пройден.