Small Data Science for Russian Adventurers

#соревнование
На кэгле когда-то было соревнование Abstraction and Reasoning Challenge, очень классное по постановке задачи - научиться на нескольких примерах, чаще даже на одном (причём человек это точно делает с лёгкостью). На картинке пример подобной задачи: по левой картинке сделать правую. Соревнование хотят продолжить - будет ARC2, сейчас собирают выборку, сделали даже такую песочницу для составления датасета. Организатор - автор популярных книг Франсуа Шолле. Не смотря на простоту, очень нетривиально, классно придумано и заставляет не просто "тренировать нейронки"! Можно почитать решение победителя первого соревнования.

👍52🔥16

9.75K views15:24

Small Data Science for Russian Adventurers

#код
В прошлом опросе по питону в комментариях есть ссылки на хорошие ресурсы. Большинство из них я использовал, когда когда-то готовил занятия по питону. Из "странностей" языка моя любимая, пожалуй, эта -

a = [lambda: i for i in range(3)]
b = [f() for f in a]
print (b)

(ниже опрос). Легко объясняется, но совсем нетривиальна до тех пор, пока сам не столкнёшься.

🔥10👍1

7.85K views10:36

Small Data Science for Russian Adventurers

Что выдаст код, описанный выше?

Anonymous Quiz

🤯107👍16🤨6

1.87K voters8.51K views10:37

Small Data Science for Russian Adventurers

#книга
Недавно на ArXive появилась книга Benedikt Ahrens, Kobe Wullaert "Category Theory for Programming"
https://arxiv.org/pdf/2209.01259.pdf
По стилю напоминает конспект лекций, но сделана аккуратно, есть задания.

Есть книга со схожим названием Б. Милевски, уже давно переведённая на русский язык (но написана совсем по-другому, больше в сторону популярного учебника):
https://rdf.ru/files/bartozh-teorcat.pdf

👍29

6.75K views19:33

Small Data Science for Russian Adventurers

#опрос
Недавно были опубликованы результаты опроса специалистов по обработке естественного языка. Интересно, что на подавляющее большинство вопросов примерно половина отвечает "да", а другая половина - "нет", т.е. в среднем специалисты ничего конкретного сказать не могут. Вот на картинке пример - статистика ответов на вопрос о понимании языка современными моделями.

Из мнений, где всё-таки есть консенсус:
- крутые статьи будут выходить из индустрии, а не академии,
- все слишком помешаны на бенчмарках ("побьём SotA-у любой ценой"),
- нужно больше взаимодействовать со смежными дисциплинами,
- NLP даёт и будет давать хороший вклад в науку.

👍23🤔10🕊1

6.44K viewsedited 09:58

Small Data Science for Russian Adventurers

#интересно
В прошлом месяце фейсбук выпустил новую "болталку" - BlenderBot 3 (доступна в США). Об этом уже многие писали, но пропустили одну фишку, которая мне понравилась. Бот состоит из модулей, каждый из которых решает определённую задачу. Например, есть модуль определения, нужно ли гуглить в интернете, чтобы ответить на вопрос пользователя. Есть модуль, который составляет запрос и гуглит. Такой же механизм применяется для определения: нужно ли что-то сохранять в память, что сохранять, нужно ли читать из памяти и что читать. А теперь самое интересное: при беседе можно понять, почему был дан такой ответ: какие модули были задействованы и как (пример на рисунке).

В целом, это неплохая идея для интерпретации сложных моделей: разбивать их на понятные блоки и показывать их функциональность по запросу.

🔥35👍12❤1🤔1

7.62K viewsedited 13:33

Small Data Science for Russian Adventurers

#статистика
Топ российских AI-исследователей по версии этого ресурса. А самая цитируемая статья, у которой только российские авторы: Artem Babenko, Anton Slesarev, Alexandr Chigorin & Victor Lempitsky "Neural Codes for Image Retrieval" (ECCV 2014).

🔥59🤮7👎4😢3👍2❤1

9.93K views13:53

Small Data Science for Russian Adventurers

#видео
Решил дозалить видео с прошлогоднего семинара - вдруг кому-то пригодятся (не везде, правда, получился качественный звук). Первый ролик - Generalized Anomaly Detection от Бориса Михеева.
https://youtu.be/5KK9hR67oL0

YouTube

SEM2021: Михеев Борис "Generalized Anomaly Detection"

22.12.2021 доклад про обнаружение аномалий
докладчик: Михеев Борис (417 группа ВМК МГУ)
слайды: https://github.com/Dyakonov/MSU/blob/master/SEMINARS/20211222_MiheevB_Anomaly.pdf
руководитель семинара: Дьяконов Александр (https://dyakonov.org/ag/)

🔥22👍20🐳3

6.72K views07:59

Small Data Science for Russian Adventurers

#термин
Extreme learning machine (ELM) - это нейросеть, в которой все слои, кроме последнего случайно инициализированы и фиксированы, а последний обучается (т.е. "логистическая регрессия" на случайных признаках). До 2012 года было целое научное направление под руководством Guang-Bin Huang из Сингапура, которое занималось развитием таких методов. В частности, были доказаны, что они являются универсальными аппроксиматорами. На основную статью Guang-Bin Huang 2006 года более 12000 ссылок.

Потом (после 2012) нейронки смогли относительно быстро обучать "целиком" и направление ELM забылось... Знаменитый профессор уже 7 лет не выпускает крутых статей, но у него есть сын (я так думаю: фамилии совпадают и он начинал в его научной группе), который в глазах современников превзошёл отца - Gao Huang. Он соавтор ансамблей Snapshot ensembles, концепции Stochastic Depth и, наконец самое известное, сети DenseNet (более 28500 ссылок на статью).

Wikipedia

Extreme learning machine

type of artificial neural network

🔥37👍18🤯9😢1

7.07K views11:33

Small Data Science for Russian Adventurers

#полезно
Лучшие решения кэгловских конкурсов в одном месте:
https://farid.one/kaggle-solutions/

farid.one

Kaggle Solutions

Kaggle Solutions and Ideas by Farid Rashidi

👍104🔥6😱1

10K views20:09

Small Data Science for Russian Adventurers

#код
100 упражнений по NumPy на русском языке
https://github.com/alex-sokolov2011/100_Numpy_exercises_Rus_ver

GitHub

GitHub - alex-sokolov2011/100_Numpy_exercises_Rus_ver: 100 упражнений по numpy версия на русском

100 упражнений по numpy версия на русском. Contribute to alex-sokolov2011/100_Numpy_exercises_Rus_ver development by creating an account on GitHub.

👍67❤‍🔥11🔥4🐳2🤡1

10.6K views08:18

Small Data Science for Russian Adventurers

#цитата
из книги "The field guide to DS"

🔥34😁10👍8❤1👎1

8.91K views10:30

Small Data Science for Russian Adventurers

#полезно
Пособие для подготовки к DS-собеседованиям.
Мне не очень понравилось, но его делали, опираясь на какие-то реальные кейсы, так что для быстрого повтора тем всё равно будет небесполезно.
https://dipranjan.github.io/dsinterviewqns/intro.html

👍39🔥10👎1

11.8K views18:57

Small Data Science for Russian Adventurers

#видео
Продолжаю выкладывать невыложенные ранее семинарские видео, сегодня - про GNN в рекомендациях.
https://youtu.be/w1mvcXkJVoc

YouTube

SEM2021: Медведев Алексей "MultiSage: Empowering GCN with Contextualized Multi-Embeddings ..."

22.12.2021 доклад про использование графовых нейронных сетей для item2item-рекомендаций
докладчик: Медведев Алексей (аспирант ВМК МГУ)
слайды: https://github.com/Dyakonov/MSU/blob/master/SEMINARS/20211222_MedvedevA_MultiSage.pdf
руководитель семинара: Дьяконов…

👍33

6.87K views11:32

Small Data Science for Russian Adventurers

#забавно
Я тут открыл для себя логическую задачу, которая вызывает максимальное число споров и недопонимания между математиками и не-математиками (не буду писать гуманитариями, т.к. споры возникают и, например, с химиками). Математическое решение парадоксальное и не применяется на практике:)

Есть команда пиратов, пронумеруем их: 1, 2, ..., N. У них чёткая иерархия ("линейный порядок"): 1 - капитан, 2 - его зам и т.д. N - самый последний пират. Они хотя поделить сундук с золотом из 100 монет. Капитан предлагает способ деления (например, "всем поровну" или "мне - 90, заму - 10, остальным - ничего"). После этого все (и он сам) голосуют за предложение капитана. Если предложение набирает большинство голосов, то так и делят (можно по-разному ставить задачу, в зависимости от того, что делать при равенстве голосов). Если не набирает, то капитана кидают за борт, команда сокращается, зам становится капитаном и процедура повторяется.

Вопрос: Вы капитан, N=5 (можно взять любое число), какую схему раздела добычи Вам предложить? Предполагается, что все хотят получить побольше денег и не быть выброшенными за борт.

Wikipedia

Игра «Пять пиратов»

Игра «Пять пиратов» — это простая математическая игра, результат которой основывается на модели поведения Homo economicus. Она представляет собой вариант игры «ультиматум» с множественными игроками.

👍43🤔16😁1

7.11K viewsedited 13:12

Small Data Science for Russian Adventurers

#интересно
По поводу последней задачи (раз уж она вызвала столько комментариев). Я тут подумал и решил, что всё портит этот самый линейный порядок. Если изменить условие: когда капитан отправляется за борт, новый капитан назначается случайно, то задача становится чуть интереснее, а ответ естественнее (в жизни так и делают).

👍8

6.48K views19:39

Small Data Science for Russian Adventurers

#полезно
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).

👍28🤔6❤2

8.53K viewsedited 20:00

Small Data Science for Russian Adventurers

В ИИ есть такая проблема "устойчивости-пластичности" (Stability-Plasticity Problem) с чем она связана?

Anonymous Quiz

28%

катастрофическое забывание (Catastrophic Forgetting)

30%

исследование-использование (Exploration-Exploitation Trade-off)

11%

проклятие размерности (Curse of Dimensionality)

20%

переобучение (Overfittting)

11%

"грокинг" (Grokking)

👍24

1.42K voters7.75K views21:29

Small Data Science for Russian Adventurers

#визуализация
В топологии есть такая крутая учёная - Мэгги Миллер. У неё в последние годы вышло много качественных работ (больше 20 только за последние 3 года, и это математические «плотные» статьи по 30 страниц), она завоевала несколько престижных премий. А ещё у неё классные картинки в статьях;) На рисунке лишь пример одной. Интересно вот, как они делаются? Может кто-нибудь знает… жалко, что у неё нет полноценного курса по топологии (только отдельные лекции).

👍35🔥20

10.2K views17:09

Small Data Science for Russian Adventurers

#соревнование
Статистика по гранд-мастерам Kaggle, их 4 вида: по соревнованиям, по выложенному коду, по выложенным данным и по активному общению в форуме. В мире всего пять 4х-кратных грандмастеров (всех видов). Интересно, что в соревнованиях из них побеждал только Chris Deotte. Рейтинг стран:
1. США - 77 грандмастеров,
2. Япония - 38,
3. Китай - 34,
4. Россия - 28,
5. Индия - 25.
В России два раза становился грандмастером Александр Рыжков (мой бывший студент, кстати). Ещё Андрей Лукьяненко (но он выступает теперь за ОАЭ).

❤60👍16🔥7🤩3❤‍🔥1🥰1😢1💯1

12.6K viewsedited 19:07

About

Blog

Apps

Platform