Small Data Science for Russian Adventurers

#интересно
В прошлом месяце фейсбук выпустил новую "болталку" - BlenderBot 3 (доступна в США). Об этом уже многие писали, но пропустили одну фишку, которая мне понравилась. Бот состоит из модулей, каждый из которых решает определённую задачу. Например, есть модуль определения, нужно ли гуглить в интернете, чтобы ответить на вопрос пользователя. Есть модуль, который составляет запрос и гуглит. Такой же механизм применяется для определения: нужно ли что-то сохранять в память, что сохранять, нужно ли читать из памяти и что читать. А теперь самое интересное: при беседе можно понять, почему был дан такой ответ: какие модули были задействованы и как (пример на рисунке).

В целом, это неплохая идея для интерпретации сложных моделей: разбивать их на понятные блоки и показывать их функциональность по запросу.

7.6K viewsedited 13:33

#статистика
Топ российских AI-исследователей по версии этого ресурса. А самая цитируемая статья, у которой только российские авторы: Artem Babenko, Anton Slesarev, Alexandr Chigorin & Victor Lempitsky "Neural Codes for Image Retrieval" (ECCV 2014).

9.9K views13:53

Small Data Science for Russian Adventurers

#видео
Решил дозалить видео с прошлогоднего семинара - вдруг кому-то пригодятся (не везде, правда, получился качественный звук). Первый ролик - Generalized Anomaly Detection от Бориса Михеева.
https://youtu.be/5KK9hR67oL0

YouTube

SEM2021: Михеев Борис "Generalized Anomaly Detection"

22.12.2021 доклад про обнаружение аномалий
докладчик: Михеев Борис (417 группа ВМК МГУ)
слайды: https://github.com/Dyakonov/MSU/blob/master/SEMINARS/20211222_MiheevB_Anomaly.pdf
руководитель семинара: Дьяконов Александр (https://dyakonov.org/ag/)

6.7K views07:59

Small Data Science for Russian Adventurers

#термин
Extreme learning machine (ELM) - это нейросеть, в которой все слои, кроме последнего случайно инициализированы и фиксированы, а последний обучается (т.е. "логистическая регрессия" на случайных признаках). До 2012 года было целое научное направление под руководством Guang-Bin Huang из Сингапура, которое занималось развитием таких методов. В частности, были доказаны, что они являются универсальными аппроксиматорами. На основную статью Guang-Bin Huang 2006 года более 12000 ссылок.

Потом (после 2012) нейронки смогли относительно быстро обучать "целиком" и направление ELM забылось... Знаменитый профессор уже 7 лет не выпускает крутых статей, но у него есть сын (я так думаю: фамилии совпадают и он начинал в его научной группе), который в глазах современников превзошёл отца - Gao Huang. Он соавтор ансамблей Snapshot ensembles, концепции Stochastic Depth и, наконец самое известное, сети DenseNet (более 28500 ссылок на статью).

Wikipedia

Extreme learning machine

type of artificial neural network

7.0K views11:33

Small Data Science for Russian Adventurers

#полезно
Лучшие решения кэгловских конкурсов в одном месте:
https://farid.one/kaggle-solutions/

farid.one

Kaggle Solutions

Kaggle Solutions and Ideas by Farid Rashidi

10.0K views20:09

Small Data Science for Russian Adventurers

#код
100 упражнений по NumPy на русском языке
https://github.com/alex-sokolov2011/100_Numpy_exercises_Rus_ver

GitHub

GitHub - alex-sokolov2011/100_Numpy_exercises_Rus_ver: 100 упражнений по numpy версия на русском

100 упражнений по numpy версия на русском. Contribute to alex-sokolov2011/100_Numpy_exercises_Rus_ver development by creating an account on GitHub.

10.5K views08:18

Small Data Science for Russian Adventurers

#цитата
из книги "The field guide to DS"

8.9K views10:30

Small Data Science for Russian Adventurers

#полезно
Пособие для подготовки к DS-собеседованиям.
Мне не очень понравилось, но его делали, опираясь на какие-то реальные кейсы, так что для быстрого повтора тем всё равно будет небесполезно.
https://dipranjan.github.io/dsinterviewqns/intro.html

11.8K views18:57

Small Data Science for Russian Adventurers

#видео
Продолжаю выкладывать невыложенные ранее семинарские видео, сегодня - про GNN в рекомендациях.
https://youtu.be/w1mvcXkJVoc

YouTube

SEM2021: Медведев Алексей "MultiSage: Empowering GCN with Contextualized Multi-Embeddings ..."

22.12.2021 доклад про использование графовых нейронных сетей для item2item-рекомендаций
докладчик: Медведев Алексей (аспирант ВМК МГУ)
слайды: https://github.com/Dyakonov/MSU/blob/master/SEMINARS/20211222_MedvedevA_MultiSage.pdf
руководитель семинара: Дьяконов…

6.8K views11:32

Small Data Science for Russian Adventurers

#забавно
Я тут открыл для себя логическую задачу, которая вызывает максимальное число споров и недопонимания между математиками и не-математиками (не буду писать гуманитариями, т.к. споры возникают и, например, с химиками). Математическое решение парадоксальное и не применяется на практике:)

Есть команда пиратов, пронумеруем их: 1, 2, ..., N. У них чёткая иерархия ("линейный порядок"): 1 - капитан, 2 - его зам и т.д. N - самый последний пират. Они хотя поделить сундук с золотом из 100 монет. Капитан предлагает способ деления (например, "всем поровну" или "мне - 90, заму - 10, остальным - ничего"). После этого все (и он сам) голосуют за предложение капитана. Если предложение набирает большинство голосов, то так и делят (можно по-разному ставить задачу, в зависимости от того, что делать при равенстве голосов). Если не набирает, то капитана кидают за борт, команда сокращается, зам становится капитаном и процедура повторяется.

Вопрос: Вы капитан, N=5 (можно взять любое число), какую схему раздела добычи Вам предложить? Предполагается, что все хотят получить побольше денег и не быть выброшенными за борт.

Wikipedia

Игра «Пять пиратов»

Игра «Пять пиратов» — это простая математическая игра, результат которой основывается на модели поведения Homo economicus. Она представляет собой вариант игры «ультиматум» с множественными игроками.

7.1K viewsedited 13:12

Small Data Science for Russian Adventurers

#интересно
По поводу последней задачи (раз уж она вызвала столько комментариев). Я тут подумал и решил, что всё портит этот самый линейный порядок. Если изменить условие: когда капитан отправляется за борт, новый капитан назначается случайно, то задача становится чуть интереснее, а ответ естественнее (в жизни так и делают).

6.5K views19:39

Small Data Science for Russian Adventurers

#полезно
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).

8.5K viewsedited 20:00

Small Data Science for Russian Adventurers

В ИИ есть такая проблема "устойчивости-пластичности" (Stability-Plasticity Problem) с чем она связана?

Anonymous Quiz

28%

катастрофическое забывание (Catastrophic Forgetting)

30%

исследование-использование (Exploration-Exploitation Trade-off)

11%

проклятие размерности (Curse of Dimensionality)

20%

переобучение (Overfittting)

11%

"грокинг" (Grokking)

1.4K voters7.7K views21:29

Small Data Science for Russian Adventurers

#визуализация
В топологии есть такая крутая учёная - Мэгги Миллер. У неё в последние годы вышло много качественных работ (больше 20 только за последние 3 года, и это математические «плотные» статьи по 30 страниц), она завоевала несколько престижных премий. А ещё у неё классные картинки в статьях;) На рисунке лишь пример одной. Интересно вот, как они делаются? Может кто-нибудь знает… жалко, что у неё нет полноценного курса по топологии (только отдельные лекции).

10.2K views17:09

Small Data Science for Russian Adventurers

#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).

12.6K viewsedited 19:07

Small Data Science for Russian Adventurers

#полезно
Визуализация разных видов "обучений" из обзора "A continual learning survey"

Есть ещё такие обзоры на тему Continual Learning:
- Embracing Change: Continual Learning in Deep Neural Networks
- Continual lifelong learning with neural networks: A review
- A wholistic view of continual learning with deep neural networks: Forgotten lessons and the bridge to active and open world learning

12.0K viewsedited 09:52

Small Data Science for Russian Adventurers

#блог
Блог по линейной алгебре, много простых, коротких, обзорных заметок, например "основные матричные факторизации", "грехи линейной алгебры" и т.п. (там ещё есть сайт автора, но мало что выложено в открытый доступ)
https://nhigham.com/blog/

Nick Higham

Applied mathematics, numerical linear algebra and software.

11.0K views17:28

Small Data Science for Russian Adventurers

#интервью
Свежее интервью с деканом ФКН ВШЭ.
https://www.hse.ru/our/news/786731800.html

www.hse.ru

«Любому времяпровождению предпочитаю работу»

Иван Аржанцев — о Чернышевском, бадминтоне, алгебре и ФКН

8.6K views18:16

Small Data Science for Russian Adventurers

Немного юмора в ленту... подборка ML-статей о детектировании и анализе шуток;)

This joke is [MASK]: Recognizing Humor and Offense with Prompting
Используют датасет HaHackathon Dataset (SemEval 2021 Task 7) и несколько подходов: донастройка трансформера, классификация с помощью затравок (Prompting) и определение самых значимых объектов в датасете.

Cards Against AI: Predicting Humor in a Fill-in-the-blank Party Game
Довольно большой датасет, составленный по игре "Cards Against Humanity" - там в предложение-заготовку вставляют слова, интересно, что "комичность" итогового предложения зависит, в основном, от выбранного слова (т.е. контекст не сильно важен). Успешно используется CatBoost.

ExPUNations: Augmenting Puns with Keywords and Explanations
Новый аннотированный датасет. BERTоподобные модели.

Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest
Датасет с комиксами и подписями к ним. Показано, что современные модели на нём работают не очень. Смотрели на T5, GPT3, CLIP.

Hybrid Multimodal Fusion for Humor Detection
Описано решение соревнования MuSe-Humor subchallenge of the Multimodal Emotional Challenge (MuSe) 2022. Использованы модели для текстов (BERT), аудио (DeepSpectrum), картинок (VGGface 2).

The MuSe 2022 Multimodal Sentiment Analysis Challenge: Humor, Emotional Reactions, and Stress
Отчёт об указанном выше соревновании с тремя модальностями.

Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results
Новый датасет (11 часов записи), 3 модальности: видео, аудио, текст. Использованы разные модели для выделения признаков из указанных модальностей.

Don't Take it Personally: Analyzing Gender and Age Differences in Ratings of Online Humor
Датасет оценок уровня юмора и оскорблений. Работа на анализ данных. Из интересного: женщины занижают оценки юмора и завышают оценки оскорблений (ну или мужчины делают наоборот).

When a Computer Cracks a Joke: Automated Generation of Humorous Headlines
В отличие от других указанных статей, тут генерация смешных заголовков.

DeHumor: Visual Analytics for Decomposing Humor
Анализируются звук и текст из открытых датасетов с выступлениями. Разработана система для анализа и проведено исследование.

Laughing Heads: Can Transformers Detect What Makes a Sentence Funny?
Датасет по игре Unfun.me, используются BERTоподобные сети. Интересная находка: одна из головок трансформера детектирует смешные фрагменты.

Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting Incongruity-Based Features for Humor Recognition
Проверяется гипотеза, что в юморе большую роль играет "неожиданность концовки". Используется несколько старых датасетов и модель GPT-2.

Computational Humor Using BERT Sentence Embedding in Parallel Neural Networks
Собрали свой датасет на 200k коротких текстов, классификациия на основе BERT.

10.1K views19:33

Small Data Science for Russian Adventurers

#визуализация
Ещё одна небольшая энциклопедия графики на питоне:
https://python-charts.com/

10.3K views21:00

About

Blog

Apps

Platform