Small Data Science for Russian Adventurers
11.2K subscribers
300 photos
3 videos
13 files
702 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#интересно
В прошлом месяце фейсбук выпустил новую "болталку" - BlenderBot 3 (доступна в США). Об этом уже многие писали, но пропустили одну фишку, которая мне понравилась. Бот состоит из модулей, каждый из которых решает определённую задачу. Например, есть модуль определения, нужно ли гуглить в интернете, чтобы ответить на вопрос пользователя. Есть модуль, который составляет запрос и гуглит. Такой же механизм применяется для определения: нужно ли что-то сохранять в память, что сохранять, нужно ли читать из памяти и что читать. А теперь самое интересное: при беседе можно понять, почему был дан такой ответ: какие модули были задействованы и как (пример на рисунке).

В целом, это неплохая идея для интерпретации сложных моделей: разбивать их на понятные блоки и показывать их функциональность по запросу.
#статистика
Топ российских AI-исследователей по версии этого ресурса. А самая цитируемая статья, у которой только российские авторы: Artem Babenko, Anton Slesarev, Alexandr Chigorin & Victor Lempitsky "Neural Codes for Image Retrieval" (ECCV 2014).
#термин
Extreme learning machine (ELM) - это нейросеть, в которой все слои, кроме последнего случайно инициализированы и фиксированы, а последний обучается (т.е. "логистическая регрессия" на случайных признаках). До 2012 года было целое научное направление под руководством Guang-Bin Huang из Сингапура, которое занималось развитием таких методов. В частности, были доказаны, что они являются универсальными аппроксиматорами. На основную статью Guang-Bin Huang 2006 года более 12000 ссылок.

Потом (после 2012) нейронки смогли относительно быстро обучать "целиком" и направление ELM забылось... Знаменитый профессор уже 7 лет не выпускает крутых статей, но у него есть сын (я так думаю: фамилии совпадают и он начинал в его научной группе), который в глазах современников превзошёл отца - Gao Huang. Он соавтор ансамблей Snapshot ensembles, концепции Stochastic Depth и, наконец самое известное, сети DenseNet (более 28500 ссылок на статью).
#полезно
Пособие для подготовки к DS-собеседованиям.
Мне не очень понравилось, но его делали, опираясь на какие-то реальные кейсы, так что для быстрого повтора тем всё равно будет небесполезно.
https://dipranjan.github.io/dsinterviewqns/intro.html
#забавно
Я тут открыл для себя логическую задачу, которая вызывает максимальное число споров и недопонимания между математиками и не-математиками (не буду писать гуманитариями, т.к. споры возникают и, например, с химиками). Математическое решение парадоксальное и не применяется на практике:)

Есть команда пиратов, пронумеруем их: 1, 2, ..., N. У них чёткая иерархия ("линейный порядок"): 1 - капитан, 2 - его зам и т.д. N - самый последний пират. Они хотя поделить сундук с золотом из 100 монет. Капитан предлагает способ деления (например, "всем поровну" или "мне - 90, заму - 10, остальным - ничего"). После этого все (и он сам) голосуют за предложение капитана. Если предложение набирает большинство голосов, то так и делят (можно по-разному ставить задачу, в зависимости от того, что делать при равенстве голосов). Если не набирает, то капитана кидают за борт, команда сокращается, зам становится капитаном и процедура повторяется.

Вопрос: Вы капитан, N=5 (можно взять любое число), какую схему раздела добычи Вам предложить? Предполагается, что все хотят получить побольше денег и не быть выброшенными за борт.
#интересно
По поводу последней задачи (раз уж она вызвала столько комментариев). Я тут подумал и решил, что всё портит этот самый линейный порядок. Если изменить условие: когда капитан отправляется за борт, новый капитан назначается случайно, то задача становится чуть интереснее, а ответ естественнее (в жизни так и делают).
#полезно
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).
#визуализация
В топологии есть такая крутая учёная - Мэгги Миллер. У неё в последние годы вышло много качественных работ (больше 20 только за последние 3 года, и это математические «плотные» статьи по 30 страниц), она завоевала несколько престижных премий. А ещё у неё классные картинки в статьях;) На рисунке лишь пример одной. Интересно вот, как они делаются? Может кто-нибудь знает… жалко, что у неё нет полноценного курса по топологии (только отдельные лекции).
#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).
#блог
Блог по линейной алгебре, много простых, коротких, обзорных заметок, например "основные матричные факторизации", "грехи линейной алгебры" и т.п. (там ещё есть сайт автора, но мало что выложено в открытый доступ)
https://nhigham.com/blog/
Немного юмора в ленту... подборка ML-статей о детектировании и анализе шуток;)

This joke is [MASK]: Recognizing Humor and Offense with Prompting
Используют датасет HaHackathon Dataset (SemEval 2021 Task 7) и несколько подходов: донастройка трансформера, классификация с помощью затравок (Prompting) и определение самых значимых объектов в датасете.

Cards Against AI: Predicting Humor in a Fill-in-the-blank Party Game
Довольно большой датасет, составленный по игре "Cards Against Humanity" - там в предложение-заготовку вставляют слова, интересно, что "комичность" итогового предложения зависит, в основном, от выбранного слова (т.е. контекст не сильно важен). Успешно используется CatBoost.

ExPUNations: Augmenting Puns with Keywords and Explanations
Новый аннотированный датасет. BERTоподобные модели.

Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest
Датасет с комиксами и подписями к ним. Показано, что современные модели на нём работают не очень. Смотрели на T5, GPT3, CLIP.

Hybrid Multimodal Fusion for Humor Detection
Описано решение соревнования MuSe-Humor subchallenge of the Multimodal Emotional Challenge (MuSe) 2022. Использованы модели для текстов (BERT), аудио (DeepSpectrum), картинок (VGGface 2).

The MuSe 2022 Multimodal Sentiment Analysis Challenge: Humor, Emotional Reactions, and Stress
Отчёт об указанном выше соревновании с тремя модальностями.

Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results
Новый датасет (11 часов записи), 3 модальности: видео, аудио, текст. Использованы разные модели для выделения признаков из указанных модальностей.

Don't Take it Personally: Analyzing Gender and Age Differences in Ratings of Online Humor
Датасет оценок уровня юмора и оскорблений. Работа на анализ данных. Из интересного: женщины занижают оценки юмора и завышают оценки оскорблений (ну или мужчины делают наоборот).

When a Computer Cracks a Joke: Automated Generation of Humorous Headlines
В отличие от других указанных статей, тут генерация смешных заголовков.

DeHumor: Visual Analytics for Decomposing Humor
Анализируются звук и текст из открытых датасетов с выступлениями. Разработана система для анализа и проведено исследование.

Laughing Heads: Can Transformers Detect What Makes a Sentence Funny?
Датасет по игре Unfun.me, используются BERTоподобные сети. Интересная находка: одна из головок трансформера детектирует смешные фрагменты.

Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting Incongruity-Based Features for Humor Recognition
Проверяется гипотеза, что в юморе большую роль играет "неожиданность концовки". Используется несколько старых датасетов и модель GPT-2.

Computational Humor Using BERT Sentence Embedding in Parallel Neural Networks
Собрали свой датасет на 200k коротких текстов, классификациия на основе BERT.
#визуализация
Ещё одна небольшая энциклопедия графики на питоне:
https://python-charts.com/