Small Data Science for Russian Adventurers

#код
Небольшой лайфхак для тех, кто перешёл из Jupyter notebook в Jupyter lab. Непривычно пропало меню работы с изображением, когда щёлкаешь правой кнопкой мыши по картинкам. Вместо этого выводится стандартное меню Lab. Чтобы вернуть "классическое", надо удерживать клавишу Shift при правом клике мыши;)

2.96K views15:01

#статья
Отличный пост от моего коллеги Дмитрия Ватолина, у него вообще очень хорошие посты на Хабре. Про гениев, сжатие и монетизацию:
https://habr.com/ru/post/525664/

Хабр

О талантах, деньгах и алгоритмах сжатия данных

Алгоритмы сжатия — это очень коварная тема, привлекающая многих новичков. Это правда! Часто человеку кажется, что его осенила божественная идея, как сильно сжать данные. Любые, кстати! Без потерь!...

2.88K views20:16

Small Data Science for Russian Adventurers

#забавно
Интересно, что учебные пособия по теории вероятностей стали писать уже для ДОшкольников:

2.67K views20:45

Small Data Science for Russian Adventurers

Forwarded from Социология воды

Wagenmakers, Beekman 2020 Bayesian Thinking.pdf

22.5 MB

В блоге Bayesian Spectacles выложили иллюстрированное введение в байесовские методы для дошкольников.

https://www.bayesianspectacles.org/out-now-bayesian-thinking-for-toddlers/

4.35K views20:45

Small Data Science for Russian Adventurers

#образование
Из малоизвестных, но интересных курсов... Алгоритмическая теория игр (видео, правда, есть не на все лекции):
https://www.cis.upenn.edu/~aaroth/courses/agtS20.html

2.99K views21:50

Small Data Science for Russian Adventurers

2.76K views11:10

Small Data Science for Russian Adventurers

Из чего выводится существование опорных объектов?

Anonymous Quiz

13%

тип задачи (квадратичного программирования)

23%

выпуклость задачи

15%

наличие двойственной задачи

40%

условия Кунна-Таккера

неотрицательно определённости матрицы Грамма

703 voters2.91K views11:15

Small Data Science for Russian Adventurers

#видео
Сравнение трёх учебных заведений по анализу данных. Есть неточности и почему-то не сравниваются программы центральных курсов, преподавательский и студенческий составы, условия учёбы и организация неучебных мероприятий. Но зато взвешенная оценка без перекосов, полезно для выбирающих:
https://www.youtube.com/watch?v=orygeynBakI

YouTube

Data Science по-взрослому: сравниваем ШАД, MADE Mail.ru и Ozon Masters

Подпишись: https://on.fless.pro/subscribe
Давно грозился сравнить 3 лучшие школы по data science в России (Европе?), и вот угроза сбылась! Спойлер: много ботать придется везде. А вот что ботать - в каждой школе своё.

ТАЙМ-ТЕГИ
00:00 Интро
00:21 План видео…

3.14K viewsedited 15:33

Small Data Science for Russian Adventurers

#обзор
Интересно, что по рекуррентным сетям (RNN) почти нет свежих обзоров, видимо, Трансформеры всё заасфальтировали... последний "универсальный" обзор (про всё-всё-всё в RNN), который я нашёл датирован началом 2018 года:
Recent Advances in Recurrent Neural Networks
https://arxiv.org/abs/1801.01078

2.89K viewsedited 16:46

Small Data Science for Russian Adventurers

#видео
А вот и видео про ОзонМастерс... обязательно покажите молодым коллегам, которые ищут, где бы поучиться;)
https://www.youtube.com/watch?v=FuF5Rhybr3g

YouTube

Ozon Masters: программы, поступление, подготовка | Юрий Дорн

Подпишись: https://on.fless.pro/subscribe
Кое-кто в Интернете опять не прав, и в теперь это я. Юрий Дорн, куратор Озон Мастерз, поправил меня и рассказал о ботанах, менеджерах и целевой аудитории своей школы data science.

ТАЙМ-ТЕГИ
00:00 Интро
00:18 Для…

3.04K views20:32

Small Data Science for Russian Adventurers

#видео
Очередной доклад с нашего семинара... там в конце о том, как выиграть миллион за полтора дня;)
https://youtu.be/clzaQ-O3VJY

YouTube

SEM2020: Фёдоров Илья "Text embeddings"

06.11.2020 Доклад о работе с текстами и победе на хакатоне: Фёдоров Илья (ВМК МГУ, 417)
слайды: https://github.com/Dyakonov/MSU/blob/master/SEMINARS/20201106_FedorovI_TransformerTextEmbed.pdf
руководитель семинара: Дьяконов Александр (https://dyakonov.org/ag/)

3.11K viewsedited 09:48

Small Data Science for Russian Adventurers

#забавно
Немного про "тренинги" и "коучев"...

2.84K views10:09

Small Data Science for Russian Adventurers

#код
Не так давно NVIDIA выпустила фрейворк NeMo для создания разговорного ИИ. Мои знакомые отнеслись к нему с понятной долей подозрения (ещё сырой, никто не использует и т.п.), но стали появляться статьи, в которых он используется: https://arxiv.org/pdf/2010.13886.pdf
NeMo
https://github.com/NVIDIA/NeMo

GitHub

GitHub - NVIDIA/NeMo: A scalable generative AI framework built for researchers and developers working on Large Language Models…

A scalable generative AI framework built for researchers and developers working on Large Language Models, Multimodal, and Speech AI (Automatic Speech Recognition and Text-to-Speech) - NVIDIA/NeMo

2.91K views14:42

Small Data Science for Russian Adventurers

Forwarded from Chat Small Data Science for Russian Adventurers

Интересно мнение аудитории... как вы относитесь к Sci-hub?

Anonymous Poll

28%

Не знаю, что это такое

Негативно - создателя надо судить за воровство

Это скорее плохо, чем хорошо

Ресурс отличный. Создателю - премию за популяризацию науки!

808 voters3.26K views14:49

Small Data Science for Russian Adventurers

#блог
Новая статья в моём блоге
https://dyakonov.org/2020/11/09/text-augmentation/

Анализ малых данных

Аугментация для текстов (Text Augmentation)

Похоже, на русском языке нет полного обзора по современным методам аугментации при работе с текстами, поэтому появился этот… На английском языке есть несколько очень хороших, но здесь удалось…

3.21K views10:10

Small Data Science for Russian Adventurers

#вакансия
Кто хочет стать координатором образовательных проектов одного крутого банка? ;)
https://www.notion.so/8c72ee131d1e4fc7b6bbe5d183fb22be

salutelidiia on Notion

Координатор образовательных проектов // Академическое направление | Notion

Ищем в команду Тинькофф Образования координатора образовательных проектов на Академической направление (сотрудничество с университетами).

2.7K views12:27

Small Data Science for Russian Adventurers

#интересно
https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=5c81a7246f63

2.92K viewsedited 13:26

Small Data Science for Russian Adventurers

Forwarded from DL in biology (Зоя Червонцева)

В пятницу тринадцатого в 19:00 Булат Загидуллин из группы Network Pharmacology for Precision Medicine в University of Helsinki расскажет, как с помощью ML ищут новые лекарства и механизмы работы уже существующих. На примере проекта LINCS и работ с датасетом Connectivity Map (CMap) Булат расскажет про возможные подходы и методы построения моделей. Это будет совместный семинар с сообществом Sberloga.

CMap — это самый большой датасет экспрессионных данных (1.5 миллиона профилей) до и после добавления потенциальных лекарств в разных клеточных линиях. Последняя версия датасета была опубликована в 2017 году и широко используется в области (более 300 цитирований), — а прямо сейчас на части данных этого датасета идет соревнование Kaggle. Участникам предлагают предсказать механизм действия новых потенциальных лекарств. Подробнее про это соревнование на прошлой неделе на семинаре Sberloga рассказывал Андрей Лукьяненко. Слайды вот, скоро обещают и видео выложить.

Ссылка на zoom для пятничного семинара с Булатом.

2.86K views15:54

Small Data Science for Russian Adventurers

#ссылка
Очень неплохие материалы выложены на сайте Олега Нагорного. И вообще, очень симпатичный личный сайт.
https://nagornyy.me/

nagornyy.me

Нагорный Олег

Живу в Москве, работаю в Magnit Tech дата саентистом

3.27K views11:07

Small Data Science for Russian Adventurers

#соревнование
На кэгле сейчас идёт очень симпатичное соревнование, я уже порекламировал его своим студентам, а в одном из курсов мы взяли его как обязательно задание. В чём плюсы:
* идеально для практики в нейронках, они здесь рулят, плюс куча кёрнелов с кодом
* задача табличная - нет специфики CV или NLP, идеально для новичков, можно сконцентрироваться на обучении сетей
* данных немного (7-слойная сеть проходит 7-fold CV на ноуте за 6 минут)
* много классов, большой дисбаланс - шанс понять, что это такое и как с этим бороться
(выше как раз была ссылка на обсуждение соревнования)
https://www.kaggle.com/c/lish-moa/

Kaggle

Mechanisms of Action (MoA) Prediction

Can you improve the algorithm that classifies drugs based on their biological activity?

4.11K views11:27

About

Blog

Apps

Platform