Small Data Science for Russian Adventurers
11.2K subscribers
300 photos
3 videos
13 files
702 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
Вопрос по Python. Что выведется, если в ячейке питон-ноутбука набрать {True: 'да', 1: 'нет', 1.0: 'возможно'}?
Anonymous Quiz
32%
{True: 'да', 1: 'нет', 1.0: 'возможно'}
3%
{True: 'да', 1: 'нет'}
12%
{True: 'да', 1: 'возможно'}
5%
{True: 'да'}
20%
{True: 'возможно'}
27%
ошибка
#соревнование
На кэгле когда-то было соревнование Abstraction and Reasoning Challenge, очень классное по постановке задачи - научиться на нескольких примерах, чаще даже на одном (причём человек это точно делает с лёгкостью). На картинке пример подобной задачи: по левой картинке сделать правую. Соревнование хотят продолжить - будет ARC2, сейчас собирают выборку, сделали даже такую песочницу для составления датасета. Организатор - автор популярных книг Франсуа Шолле. Не смотря на простоту, очень нетривиально, классно придумано и заставляет не просто "тренировать нейронки"! Можно почитать решение победителя первого соревнования.
#код
В прошлом опросе по питону в комментариях есть ссылки на хорошие ресурсы. Большинство из них я использовал, когда когда-то готовил занятия по питону. Из "странностей" языка моя любимая, пожалуй, эта -
a = [lambda: i for i in range(3)]
b = [f() for f in a]
print (b)
(ниже опрос). Легко объясняется, но совсем нетривиальна до тех пор, пока сам не столкнёшься.
#книга
Недавно на ArXive появилась книга Benedikt Ahrens, Kobe Wullaert "Category Theory for Programming"
https://arxiv.org/pdf/2209.01259.pdf
По стилю напоминает конспект лекций, но сделана аккуратно, есть задания.

Есть книга со схожим названием Б. Милевски, уже давно переведённая на русский язык (но написана совсем по-другому, больше в сторону популярного учебника):
https://rdf.ru/files/bartozh-teorcat.pdf
#опрос
Недавно были опубликованы результаты опроса специалистов по обработке естественного языка. Интересно, что на подавляющее большинство вопросов примерно половина отвечает "да", а другая половина - "нет", т.е. в среднем специалисты ничего конкретного сказать не могут. Вот на картинке пример - статистика ответов на вопрос о понимании языка современными моделями.

Из мнений, где всё-таки есть консенсус:
- крутые статьи будут выходить из индустрии, а не академии,
- все слишком помешаны на бенчмарках ("побьём SotA-у любой ценой"),
- нужно больше взаимодействовать со смежными дисциплинами,
- NLP даёт и будет давать хороший вклад в науку.
#интересно
В прошлом месяце фейсбук выпустил новую "болталку" - BlenderBot 3 (доступна в США). Об этом уже многие писали, но пропустили одну фишку, которая мне понравилась. Бот состоит из модулей, каждый из которых решает определённую задачу. Например, есть модуль определения, нужно ли гуглить в интернете, чтобы ответить на вопрос пользователя. Есть модуль, который составляет запрос и гуглит. Такой же механизм применяется для определения: нужно ли что-то сохранять в память, что сохранять, нужно ли читать из памяти и что читать. А теперь самое интересное: при беседе можно понять, почему был дан такой ответ: какие модули были задействованы и как (пример на рисунке).

В целом, это неплохая идея для интерпретации сложных моделей: разбивать их на понятные блоки и показывать их функциональность по запросу.
#статистика
Топ российских AI-исследователей по версии этого ресурса. А самая цитируемая статья, у которой только российские авторы: Artem Babenko, Anton Slesarev, Alexandr Chigorin & Victor Lempitsky "Neural Codes for Image Retrieval" (ECCV 2014).
#термин
Extreme learning machine (ELM) - это нейросеть, в которой все слои, кроме последнего случайно инициализированы и фиксированы, а последний обучается (т.е. "логистическая регрессия" на случайных признаках). До 2012 года было целое научное направление под руководством Guang-Bin Huang из Сингапура, которое занималось развитием таких методов. В частности, были доказаны, что они являются универсальными аппроксиматорами. На основную статью Guang-Bin Huang 2006 года более 12000 ссылок.

Потом (после 2012) нейронки смогли относительно быстро обучать "целиком" и направление ELM забылось... Знаменитый профессор уже 7 лет не выпускает крутых статей, но у него есть сын (я так думаю: фамилии совпадают и он начинал в его научной группе), который в глазах современников превзошёл отца - Gao Huang. Он соавтор ансамблей Snapshot ensembles, концепции Stochastic Depth и, наконец самое известное, сети DenseNet (более 28500 ссылок на статью).
#полезно
Пособие для подготовки к DS-собеседованиям.
Мне не очень понравилось, но его делали, опираясь на какие-то реальные кейсы, так что для быстрого повтора тем всё равно будет небесполезно.
https://dipranjan.github.io/dsinterviewqns/intro.html
#забавно
Я тут открыл для себя логическую задачу, которая вызывает максимальное число споров и недопонимания между математиками и не-математиками (не буду писать гуманитариями, т.к. споры возникают и, например, с химиками). Математическое решение парадоксальное и не применяется на практике:)

Есть команда пиратов, пронумеруем их: 1, 2, ..., N. У них чёткая иерархия ("линейный порядок"): 1 - капитан, 2 - его зам и т.д. N - самый последний пират. Они хотя поделить сундук с золотом из 100 монет. Капитан предлагает способ деления (например, "всем поровну" или "мне - 90, заму - 10, остальным - ничего"). После этого все (и он сам) голосуют за предложение капитана. Если предложение набирает большинство голосов, то так и делят (можно по-разному ставить задачу, в зависимости от того, что делать при равенстве голосов). Если не набирает, то капитана кидают за борт, команда сокращается, зам становится капитаном и процедура повторяется.

Вопрос: Вы капитан, N=5 (можно взять любое число), какую схему раздела добычи Вам предложить? Предполагается, что все хотят получить побольше денег и не быть выброшенными за борт.
#интересно
По поводу последней задачи (раз уж она вызвала столько комментариев). Я тут подумал и решил, что всё портит этот самый линейный порядок. Если изменить условие: когда капитан отправляется за борт, новый капитан назначается случайно, то задача становится чуть интереснее, а ответ естественнее (в жизни так и делают).
#полезно
Поучительная схемка из "старенькой" статьи. При работе с рядами часто забывают, что их можно по-разному представлять, например переводя в строки: можно разбить на кусочки и задать правило, по которому кусок кодируется буквой из некоторого алфавита. Когда-то этот способ рекламировал Воронцов для анализа ЭКГ (т.н. метод Успенского В.М.).
#визуализация
В топологии есть такая крутая учёная - Мэгги Миллер. У неё в последние годы вышло много качественных работ (больше 20 только за последние 3 года, и это математические «плотные» статьи по 30 страниц), она завоевала несколько престижных премий. А ещё у неё классные картинки в статьях;) На рисунке лишь пример одной. Интересно вот, как они делаются? Может кто-нибудь знает… жалко, что у неё нет полноценного курса по топологии (только отдельные лекции).