Small Data Science for Russian Adventurers

#история
Забавно, что практически всё в математике появляется из решения конкретных задач (а не из абстрактных умозаключений).
Вот как появились смеси распределений, ну и потом отсюда всякие EM-алгоритмы?

Карл Пирсон подружился с зоологом Велдоном и его женой, и решил помочь им проанализировать данные о параметрах популяции крабов (там были ширина и высота лба). Ну и очень удивился, что данные не подчинены нормальному распределению. Он делает вывод, что популяция крабов неоднородна, а состоит из однородных подгрупп! Поверить, что каждая подгруппа ненормальная он не может, поэтому получаем смесь нормальных распределений...

Странно, что крабовый датасет не стал таким же известным как ирисы Фишера.

8.3K viewsedited 14:09

#история
Ещё про исходные практические задачи...

Есть такая задача Бюффона о вероятности пересечения брошенной иголкой стыка на дощатом полу (предполагаются, что все доски равной ширины). Когда решают, то вместо иглы - отрезок, вместо стыков - параллельные прямые с одинаковым шагом. Задача известная, поскольку в ответе фигурирует число pi, т.е. его можно так приближённо вычислять: "бросая иголку на пол".

Всегда думал, что эта задача родилась просто из размышлений о пересечениях, иголка и пол тут для наглядности, но оказалось, что в 18 веке была такая азартная игра: на плиточный пол кидали какой-то предмет и смотрели, находится ли он внутри одной из плиток или пересекает границы плиток. Сначала кидали монетки, потом стали кидать всё, что в голову придёт:)

П.С. Из интересного: задача поставлена в 1733 году, а решена в 1777 (хотя сейчас лёгкая для математика-первокурсника), привела к появлению "Стохастической геометрии".

7.5K views10:38

Small Data Science for Russian Adventurers

Вопрос по Python. Что выведется, если в ячейке питон-ноутбука набрать {True: 'да', 1: 'нет', 1.0: 'возможно'}?

Anonymous Quiz

32%

{True: 'да', 1: 'нет', 1.0: 'возможно'}

{True: 'да', 1: 'нет'}

12%

{True: 'да', 1: 'возможно'}

2.3K voters9.1K views22:05

Small Data Science for Russian Adventurers

#соревнование
На кэгле когда-то было соревнование Abstraction and Reasoning Challenge, очень классное по постановке задачи - научиться на нескольких примерах, чаще даже на одном (причём человек это точно делает с лёгкостью). На картинке пример подобной задачи: по левой картинке сделать правую. Соревнование хотят продолжить - будет ARC2, сейчас собирают выборку, сделали даже такую песочницу для составления датасета. Организатор - автор популярных книг Франсуа Шолле. Не смотря на простоту, очень нетривиально, классно придумано и заставляет не просто "тренировать нейронки"! Можно почитать решение победителя первого соревнования.

9.7K views15:24

Small Data Science for Russian Adventurers

#код
В прошлом опросе по питону в комментариях есть ссылки на хорошие ресурсы. Большинство из них я использовал, когда когда-то готовил занятия по питону. Из "странностей" языка моя любимая, пожалуй, эта -

a = [lambda: i for i in range(3)]
b = [f() for f in a]
print (b)

(ниже опрос). Легко объясняется, но совсем нетривиальна до тех пор, пока сам не столкнёшься.

7.8K views10:36

Small Data Science for Russian Adventurers

Что выдаст код, описанный выше?

Anonymous Quiz

1.9K voters8.5K views10:37

Small Data Science for Russian Adventurers

#книга
Недавно на ArXive появилась книга Benedikt Ahrens, Kobe Wullaert "Category Theory for Programming"
https://arxiv.org/pdf/2209.01259.pdf
По стилю напоминает конспект лекций, но сделана аккуратно, есть задания.

Есть книга со схожим названием Б. Милевски, уже давно переведённая на русский язык (но написана совсем по-другому, больше в сторону популярного учебника):
https://rdf.ru/files/bartozh-teorcat.pdf

6.7K views19:33

Small Data Science for Russian Adventurers

#опрос
Недавно были опубликованы результаты опроса специалистов по обработке естественного языка. Интересно, что на подавляющее большинство вопросов примерно половина отвечает "да", а другая половина - "нет", т.е. в среднем специалисты ничего конкретного сказать не могут. Вот на картинке пример - статистика ответов на вопрос о понимании языка современными моделями.

Из мнений, где всё-таки есть консенсус:
- крутые статьи будут выходить из индустрии, а не академии,
- все слишком помешаны на бенчмарках ("побьём SotA-у любой ценой"),
- нужно больше взаимодействовать со смежными дисциплинами,
- NLP даёт и будет давать хороший вклад в науку.

6.4K viewsedited 09:58

Small Data Science for Russian Adventurers

#интересно
В прошлом месяце фейсбук выпустил новую "болталку" - BlenderBot 3 (доступна в США). Об этом уже многие писали, но пропустили одну фишку, которая мне понравилась. Бот состоит из модулей, каждый из которых решает определённую задачу. Например, есть модуль определения, нужно ли гуглить в интернете, чтобы ответить на вопрос пользователя. Есть модуль, который составляет запрос и гуглит. Такой же механизм применяется для определения: нужно ли что-то сохранять в память, что сохранять, нужно ли читать из памяти и что читать. А теперь самое интересное: при беседе можно понять, почему был дан такой ответ: какие модули были задействованы и как (пример на рисунке).

В целом, это неплохая идея для интерпретации сложных моделей: разбивать их на понятные блоки и показывать их функциональность по запросу.

7.6K viewsedited 13:33

Small Data Science for Russian Adventurers

#статистика
Топ российских AI-исследователей по версии этого ресурса. А самая цитируемая статья, у которой только российские авторы: Artem Babenko, Anton Slesarev, Alexandr Chigorin & Victor Lempitsky "Neural Codes for Image Retrieval" (ECCV 2014).

9.9K views13:53

Small Data Science for Russian Adventurers

#видео
Решил дозалить видео с прошлогоднего семинара - вдруг кому-то пригодятся (не везде, правда, получился качественный звук). Первый ролик - Generalized Anomaly Detection от Бориса Михеева.
https://youtu.be/5KK9hR67oL0

YouTube

SEM2021: Михеев Борис "Generalized Anomaly Detection"

22.12.2021 доклад про обнаружение аномалий
докладчик: Михеев Борис (417 группа ВМК МГУ)
слайды: https://github.com/Dyakonov/MSU/blob/master/SEMINARS/20211222_MiheevB_Anomaly.pdf
руководитель семинара: Дьяконов Александр (https://dyakonov.org/ag/)

6.7K views07:59

Small Data Science for Russian Adventurers

#термин
Extreme learning machine (ELM) - это нейросеть, в которой все слои, кроме последнего случайно инициализированы и фиксированы, а последний обучается (т.е. "логистическая регрессия" на случайных признаках). До 2012 года было целое научное направление под руководством Guang-Bin Huang из Сингапура, которое занималось развитием таких методов. В частности, были доказаны, что они являются универсальными аппроксиматорами. На основную статью Guang-Bin Huang 2006 года более 12000 ссылок.

Потом (после 2012) нейронки смогли относительно быстро обучать "целиком" и направление ELM забылось... Знаменитый профессор уже 7 лет не выпускает крутых статей, но у него есть сын (я так думаю: фамилии совпадают и он начинал в его научной группе), который в глазах современников превзошёл отца - Gao Huang. Он соавтор ансамблей Snapshot ensembles, концепции Stochastic Depth и, наконец самое известное, сети DenseNet (более 28500 ссылок на статью).

Wikipedia

Extreme learning machine

type of artificial neural network

7.1K views11:33

Small Data Science for Russian Adventurers

#полезно
Лучшие решения кэгловских конкурсов в одном месте:
https://farid.one/kaggle-solutions/

farid.one

Kaggle Solutions

Kaggle Solutions and Ideas by Farid Rashidi

10.0K views20:09

Small Data Science for Russian Adventurers

#код
100 упражнений по NumPy на русском языке
https://github.com/alex-sokolov2011/100_Numpy_exercises_Rus_ver

GitHub

GitHub - alex-sokolov2011/100_Numpy_exercises_Rus_ver: 100 упражнений по numpy версия на русском

100 упражнений по numpy версия на русском. Contribute to alex-sokolov2011/100_Numpy_exercises_Rus_ver development by creating an account on GitHub.

10.5K views08:18

Small Data Science for Russian Adventurers

#цитата
из книги "The field guide to DS"

8.9K views10:30

Small Data Science for Russian Adventurers

#полезно
Пособие для подготовки к DS-собеседованиям.
Мне не очень понравилось, но его делали, опираясь на какие-то реальные кейсы, так что для быстрого повтора тем всё равно будет небесполезно.
https://dipranjan.github.io/dsinterviewqns/intro.html

11.8K views18:57

Small Data Science for Russian Adventurers

#видео
Продолжаю выкладывать невыложенные ранее семинарские видео, сегодня - про GNN в рекомендациях.
https://youtu.be/w1mvcXkJVoc

YouTube

SEM2021: Медведев Алексей "MultiSage: Empowering GCN with Contextualized Multi-Embeddings ..."

22.12.2021 доклад про использование графовых нейронных сетей для item2item-рекомендаций
докладчик: Медведев Алексей (аспирант ВМК МГУ)
слайды: https://github.com/Dyakonov/MSU/blob/master/SEMINARS/20211222_MedvedevA_MultiSage.pdf
руководитель семинара: Дьяконов…

6.9K views11:32

Small Data Science for Russian Adventurers

#забавно
Я тут открыл для себя логическую задачу, которая вызывает максимальное число споров и недопонимания между математиками и не-математиками (не буду писать гуманитариями, т.к. споры возникают и, например, с химиками). Математическое решение парадоксальное и не применяется на практике:)

Есть команда пиратов, пронумеруем их: 1, 2, ..., N. У них чёткая иерархия ("линейный порядок"): 1 - капитан, 2 - его зам и т.д. N - самый последний пират. Они хотя поделить сундук с золотом из 100 монет. Капитан предлагает способ деления (например, "всем поровну" или "мне - 90, заму - 10, остальным - ничего"). После этого все (и он сам) голосуют за предложение капитана. Если предложение набирает большинство голосов, то так и делят (можно по-разному ставить задачу, в зависимости от того, что делать при равенстве голосов). Если не набирает, то капитана кидают за борт, команда сокращается, зам становится капитаном и процедура повторяется.

Вопрос: Вы капитан, N=5 (можно взять любое число), какую схему раздела добычи Вам предложить? Предполагается, что все хотят получить побольше денег и не быть выброшенными за борт.

Wikipedia

Игра «Пять пиратов»

Игра «Пять пиратов» — это простая математическая игра, результат которой основывается на модели поведения Homo economicus. Она представляет собой вариант игры «ультиматум» с множественными игроками.

7.1K viewsedited 13:12

Small Data Science for Russian Adventurers

#интересно
По поводу последней задачи (раз уж она вызвала столько комментариев). Я тут подумал и решил, что всё портит этот самый линейный порядок. Если изменить условие: когда капитан отправляется за борт, новый капитан назначается случайно, то задача становится чуть интереснее, а ответ естественнее (в жизни так и делают).

6.5K views19:39

Small Data Science for Russian Adventurers

#полезно
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).

8.5K viewsedited 20:00

Small Data Science for Russian Adventurers

В ИИ есть такая проблема "устойчивости-пластичности" (Stability-Plasticity Problem) с чем она связана?

Anonymous Quiz

28%

катастрофическое забывание (Catastrophic Forgetting)

30%

исследование-использование (Exploration-Exploitation Trade-off)

11%

проклятие размерности (Curse of Dimensionality)

20%

переобучение (Overfittting)