Small Data Science for Russian Adventurers
11.2K subscribers
300 photos
3 videos
13 files
702 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).
#блог
Блог по линейной алгебре, много простых, коротких, обзорных заметок, например "основные матричные факторизации", "грехи линейной алгебры" и т.п. (там ещё есть сайт автора, но мало что выложено в открытый доступ)
https://nhigham.com/blog/
Немного юмора в ленту... подборка ML-статей о детектировании и анализе шуток;)

This joke is [MASK]: Recognizing Humor and Offense with Prompting
Используют датасет HaHackathon Dataset (SemEval 2021 Task 7) и несколько подходов: донастройка трансформера, классификация с помощью затравок (Prompting) и определение самых значимых объектов в датасете.

Cards Against AI: Predicting Humor in a Fill-in-the-blank Party Game
Довольно большой датасет, составленный по игре "Cards Against Humanity" - там в предложение-заготовку вставляют слова, интересно, что "комичность" итогового предложения зависит, в основном, от выбранного слова (т.е. контекст не сильно важен). Успешно используется CatBoost.

ExPUNations: Augmenting Puns with Keywords and Explanations
Новый аннотированный датасет. BERTоподобные модели.

Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest
Датасет с комиксами и подписями к ним. Показано, что современные модели на нём работают не очень. Смотрели на T5, GPT3, CLIP.

Hybrid Multimodal Fusion for Humor Detection
Описано решение соревнования MuSe-Humor subchallenge of the Multimodal Emotional Challenge (MuSe) 2022. Использованы модели для текстов (BERT), аудио (DeepSpectrum), картинок (VGGface 2).

The MuSe 2022 Multimodal Sentiment Analysis Challenge: Humor, Emotional Reactions, and Stress
Отчёт об указанном выше соревновании с тремя модальностями.

Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results
Новый датасет (11 часов записи), 3 модальности: видео, аудио, текст. Использованы разные модели для выделения признаков из указанных модальностей.

Don't Take it Personally: Analyzing Gender and Age Differences in Ratings of Online Humor
Датасет оценок уровня юмора и оскорблений. Работа на анализ данных. Из интересного: женщины занижают оценки юмора и завышают оценки оскорблений (ну или мужчины делают наоборот).

When a Computer Cracks a Joke: Automated Generation of Humorous Headlines
В отличие от других указанных статей, тут генерация смешных заголовков.

DeHumor: Visual Analytics for Decomposing Humor
Анализируются звук и текст из открытых датасетов с выступлениями. Разработана система для анализа и проведено исследование.

Laughing Heads: Can Transformers Detect What Makes a Sentence Funny?
Датасет по игре Unfun.me, используются BERTоподобные сети. Интересная находка: одна из головок трансформера детектирует смешные фрагменты.

Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting Incongruity-Based Features for Humor Recognition
Проверяется гипотеза, что в юморе большую роль играет "неожиданность концовки". Используется несколько старых датасетов и модель GPT-2.

Computational Humor Using BERT Sentence Embedding in Parallel Neural Networks
Собрали свой датасет на 200k коротких текстов, классификациия на основе BERT.
#визуализация
Ещё одна небольшая энциклопедия графики на питоне:
https://python-charts.com/
#конференция
Недавно закончилась предварительная оценка работ, поданных на ICLR 2023. Ниже статьи, которые набрали наибольшее количество баллов:

Раздел Deep Learning and representational learning (оценки 10;8;8)
Git Re-Basin: Merging Models modulo Permutation Symmetries
Действительно классная работа! Центральный вопрос: почему в нейронках SGD так хорош? Основной вывод: при оптимизации нейронок есть только одна область минимума, куда приводит SGD, если учесть симметрии нейронок. Вообще, интересно про связь симметрии и ML.
Rethinking the Expressive Power of GNNs via Graph Biconnectivity
Исследуется свойство двусвязанности графов (в статье довольно много математики из теории графов), как следствие предлагается Graphormer-GD - новая архитектура GNN, которая показала себя лучше предшественников на тестовых задачах.

Раздел Reinforcement Learning (оценки 8;8;8;10)
Emergence of Maps in the Memories of Blind Navigation Agents
Показывают, что "слепые агенты" неплохо справляются с задачами навигации. При этом неявно они всё-таки создают "карту окружения". Очень красивая идея!
DEP-RL: Embodied Exploration for Reinforcement Learning in Overactuated and Musculoskeletal Systems
Предлагают эффективный метод обучения для "скелетно-мышечных моделей". Вроде как до этого такие модели не слишком хорошо обучались...

Раздел Applications (оценки 10;8;6;10)
Revisiting the Entropy Semiring for Neural Speech Recognition
Тут смесь ML и алгебры (причём абстрактной алгебры): рассматривается полукольцо, которое возникает в задачах распознавания речи. Показано, как функции ошибки можно трактовать в терминах полуколец. Работа доведена до численных экспериментов.

Раздел Theory (оценки 8;10;10;5)
Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning
Новая теория ансамблирования! По мнению авторов, первая в DL...

Раздел General Machine Learning (оценки 8;8;8)
Learning a Data-Driven Policy Network for Pre-Training Automated Feature Engineering
Автоматическая генерация признаков на основе RL. Показывают, как улучшается качество для LogReg, RF, XGBoost.
Targeted Hyperparameter Optimization with Lexicographic Preferences Over Multiple Objectives
Рассматривается многокритериальная оптимизация гиперпараметров с порядком приоритета критериев. Новый метод оптимизации опробован для Xgboost, RF и NN.

Раздел Probabilistic Methods (оценки 8;8;8)
Fast Nonlinear Vector Quantile Regression
Обобщение квантильной регрессии, написали свой GPU-солвер.
Scaling Up Probabilistic Circuits by Latent Variable Distillation
Предложена техника для применения Probabilistic Circuits на больших данных.

Раздел Optimization (оценки 8;8;8)
FedExP: Speeding up Federated Averaging via Extrapolation
Метод эффективного федеративного обучения

Раздел Social Aspects of Machine Learning (оценки 8;8;8)
Confidential-PROFITT: Confidential PROof of FaIr Training of Trees
Рассматривается проблема fair-обучения решающих деревьев. Предложенный подход не зависит от выбора тестов и не требует представления данных и модели проверяющему.

Раздел Generative models (оценки 8;8;8)
DreamFusion: Text-to-3D using 2D Diffusion
Синтез text-to-3D. При этом используются модели 2D-синтеза, не нужны 3D-данные.
#конференция
Ещё про конференции, но теперь математические... сейчас проходит мероприятие под названием Вторая конференция Математических центров России. Интересны аннотации докладов - очень хороший срез "какая сейчас математика в России" (как в положительном, так и в отрицательном смысле). Да, не представлены все направления и все хорошие исследователи, но на удивление довольно разнообразный и внушительный состав участников.

П.С. Кстати, удивился, скольких же я знаю среди докладчиков (причём чаще в формате "жили в одном номере" на такой-то конференции). Тот случай, когда сам учёным не стал, но зато со всеми пожил;)
#визуализация
И ещё один гид по правилам хорошей визуализации (не по библиотекам, а по подходам):
https://www.lunaticai.com/dv/
#визуализация
Начался чемпионат мира по футболу в Катаре - естественно, я полез смотреть на аналитику и инфографику, подготовленную к турниру... что мне больше всего пока понравилось:

Детали чемпионата - красиво и интересно
https://multimedia.scmp.com/infographics/sport/article/3199517/qatar-world-cup-2022/index.html

Постеры на стену
https://www.graphicnews.com/en/pages/43217/soccer-fifa-world-cup-2022-wallchart-2
#конференция
Завтра буду на форуме риск-менеджеров, поскольку часть подписчиков канала из этой среды, есть возможность "в живую" пообщаться;)
https://рисковики.рф/
#статья
Вчера я изучал статьи про прогнозирование фондового рынка. Интересно, что почти все написаны людьми, которые довольно слабо разбираются в практическом ML. Вот беру случайную статью:
Stock market prediction using machine learning classifiers and social media, news
Больше 100 цитирований, в журнале из Q1 Scopus раздела General Computer Science, между прочим. Привожу табличку с оптимальными параметрами исследуемых алгоритмов, которая сразу вызовет кучу вопросов у профессионала;)
(в следующем посте могу кратко описать почему)
Комментарий к предыдущему посту...

В принципе, многое прозвучало в комментариях, но не все комментарии были корректны. Давайте для простоты возьмём случайный лес (RFC).

0) это, конечно, не параметры по умолчанию. По умолчанию в лесе 100 деревьев и min_samples_split=2, например.

-) то что min_samples_leaf=1 это нормально - читайте помощь (см. также ответ в комментариях к предыдыущему посту).

+) то что n_estimators=20 - это уже странно, обычно этот параметр даже и не перебирают ("чем больше, тем не хуже"). Хотя... в этой статье в выборке было 350 объектов (обучение) + 150 (тест), причём это же твиты, их можно сколько угодно насобирать... Но зато теперь верится, что при 20 деревьев качество уже вышло на максимум.

+) нет параметра max_features - это главный аргумент! Это, по сути, единственный параметр RFC, который нужно подобрать (причём значение по умолчанию редко бывает оптимальным). И раз уже перечислили всё, включая random_state, забыть самый важный параметр это сверхстранно.

https://scikit-learn.org/stable/modules/ensemble.html#random-forest-parameters

Кстати, раз уж я тут открыл помощь... Представляете, в RF изменили значения по умолчанию для max_features, уже много лет во всех реализациях RF было sqrt(n) - для классификации и 0.3n - для регрессии. Теперь для регрессии просто n (т.е. просматриваются все признаки)!
#журнал
В линейке Nature есть специальный журнал для презентации наборов данных - "Scientific Data".
Вот, например, рисунок из статьи про новый датасет с фенотипами подсолнухов.
https://www.nature.com/sdata/
#интересно
В дискретной оптимизации модно брать какие-то идеи из природы и создавать очередную версию стохастической оптимизации с экзотическим названием. Так когда-то появились генетические и муравьиные алгоритмы. Есть такая команда: Дхиман, Куман и сотоварищи, которые особенно преуспели в этом. У них более 20 разных "природных алгоритмов", например
- Оптимизатор пятнистой гиены
- Оптимизатор чайки
- Оптимизатор императорского пингвина
- [свежее] Крысиный оптимизатор
#игра
Какая симпатичная идея: загадано слово, Вы пытаетесь его угадать, сообщая свой вариант. Вам указывается, какое по счёту Ваше слово от исходного, если слова упорядочить по близости (это сделано, видимо, какой-то нейронкой). Вот мой результат с первой попытки без подсказок - за 20 слов;)
Если эту идею развить - получатся неплохие конкурсы для «промпт-инженеров»!
https://контекстно.рф
#приёмы
В старом посте я описывал приём AV: решение задачи разделения обучения и теста позволяет понять
1) какие признаки стабильны,
2) как отобрать обучающую подвыборку максимально похожую на тест.

Из того, что я тогда не сказал, но это полезно:
1) логично встроить AV в процедуру отбора признаков (чтобы отбиралось не просто подпространство с высоким качеством решения, но и стабильное),
2) когда нет теста (а его на практике часто и нет) можно разбить объекты по времени (странно, но при решении прикладных задач это делают очень редко),
3) из нестабильных признаков часто получаются хорошие стабильные, причём с помощью простых приёмов (например, доход клиента делим на медианных доход в этом месяце). Поэтому AV можно встроить и в генератор признаков;)
#поздравление
Команда "Антиплагиат" выиграла конкурс Up Great «ПРО//ЧТЕНИЕ» по созданию системы автоматической проверки школьных сочинений на русском языке. Причём проверяются не только орфография и пунктуация, но и верное изложение фактов, логика повествования и т.п. Кроме того, по найденным ошибкам может даваться развёрнутый комментарий.
https://upgreat.one/media-center/news/v-rossii-sozdali-iskusstvennyy-intellekt-dlya-redaktirovaniya-sochineniy/
#новости
Объявлены победители премии за популяризацию науки. По ссылке можно посмотреть детали, а я приведу цитату из книги победителя А. Семихатова

"Парабола - траектория самого неторопливого расставания."

и скажу, что "Квантик" и правда очень хорошо оформлен!
#полезно
Довольно любопытный блог, в основном тут описываются идеи научных статей. Тематика: оптимизация, тензорные разложения, GAN-ы. Из последних интересных постов: качество на тестовой выборке почти совпадает с качеством на синтетической выборке, построенной с помощью GAN-a, обученного на обучении (т.е. предсказывается качество на тесте).

https://www.offconvex.org