Small Data Science for Russian Adventurers
11.2K subscribers
303 photos
3 videos
13 files
705 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#конференция
Недавно прошла EMNLP 2020. Искал какой-нибудь ресурс с материалами, нашёл этот (тут не всё доступно, но есть, что мне надо было - слайды туториалов):
https://github.com/juand-r/EMNLP-2020
#вопросы DS
А можно и придраться;)
1. "... статистическая..." А что такое статистическая модель и бывают ли нестатистические? Например, метод ближайшего соседа - является ли он статистическим? Если нет, то получается, что утверждение узкое.
2. "... основную структуру данных" А что такое структура данных?! Этот термин я бы точно тут не рекомендовал использовать.
3. "в которой отсутствуют некоторые параметры или коэффициенты" - совсем спорный момент. Модель как раз определяется фиксированным набором параметров, об отсутствии чего-то лучше не говорить. Это как сказать, что вещественные числа плохие, т.к. среди них отсутствуют другие числа, которые являются корнями некоторых уравнений. И тут философский вопрос: так это числа плохие или уравнения? И как числа сделать хорошими, т.к. пополнив их нужными мы получаем уже другие числа - комплексные, странно их называть "хорошими вещественными"?
#статьи
Сравнение разных GANов из статьи прошлого года https://arxiv.org/pdf/1906.01529.pdf
#статьи
Меня сегодня несколько человек спросили про обзоры на разные темы. Я нашёл выход, вот универсальный обзор обзоров в DL, там можно найти интересующий Вас обзор;)
Deep Learning – A first Meta-Survey of selected Reviews across Scientific Disciplines and their Research Impact
https://arxiv.org/ftp/arxiv/papers/2011/2011.08184.pdf
#забавно
Был такой учёный-психолог Стэнли Милгрэм, он известен как автор эксперимента "Тесный мир" (small world), в котором он выбрал группу случайных людей и попросил каждого доставить письмо до адресата, послав его своему знакомому вместе с инструкцией (он тоже должен был послать знакомому и т.д., пока письмо не дойдёт). Это подтвердило теорию шести рукопожатий, согласно которой любые 2 человека знакомы друг с другом через N рукопожатий (обычно N=6, 7 или 8). Подобную теорию выдвигал итальянский изобретатель Маркони лет за 20 до Милгрэма. Эксперимент, правда, критиковали (многие письма потерялись и не дошли до адресата).

Это довольно известные факты. Но самое интересно, что я узнал относительно недавно, у Милгрэма было много подобных "сомнительных" экспериментов. Например, в одном из них испытуемого просили причинить боль другому. В современных шоу и не такое творится, но в начале 20 века это вызвало негодование. Его сначала не хотели принимать в американскую ассоциацию психологов, а потом наградили престижной премией за подобные исследования.
#реклама
Science Сlub от Machine Intelligence Laboratory Team (МФТИ) приглашает студентов поработать над задачами машинного обучения с топовыми научными руководителями.

Science Club – это объединение студентов, которые стремятся к научной карьере, и опытных менторов-исследователей в области Data Science. Вместе они проводят исследования, пишут статьи и выступают на конференциях.

Приглашаем студентов поработать над задачами машинного обучения с топовыми научными руководителями, такими как Михаил Бурцев, Юрий Куратов и Алексей Гончаров.

Участие бесплатное.

Выбери себе ментора и подай заявку: https://bit.ly/3gbPFxR
#визуализация
В одном из моих курсов есть игра "Что это за данные?" - в которой нужно догадаться, что изображено на визуализации. Вот, например, что изображено здесь? Ответы - в комментарии.
#метод
Многие коллеги хвалили т.н. синтетический случайный лес, сегодня был повод в нём разобраться, поскольку готовил соответствующую лекцию. Оказалось, что термином Synthetic RF называется стекинг над случайными лесами, построенными с разными значениями параметра nodesize... Я всегда делал стекинг над RF с разными глубинами деревьев, наверняка это тоже как-то называется;)
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4279689/
#метод
С помощью SVM можно решать задачи классификации, регрессии и поиска аномалий. Реализации всех этих алгоритмов есть, например, в scikit-learn. А вот чего нет, так это SVM-кластеризации, хотя такая существует...
* http://hanj.cs.illinois.edu/pdf/aistat13_qgu.pdf
* https://www.jmlr.org/papers/volume2/horn01a/horn01a.pdf
* https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-S7-S18
Одна из научных статей начинается с истории про двух боксёров - Габриэля и Даниэля - о чём эта статья?
Anonymous Quiz
7%
классификация
3%
кластеризация
24%
генерация
6%
аномалии
53%
обучение с подкреплением
6%
исследование / использование
#метод
Если Вы захотите запихнуть в Трансформер что-то более экзотическое, чем последовательность, то потребуется придумать подходящий Positional Encoding (который бы ещё и структуру учитывал). Что-то мало статей на этот счёт, например, как лучше кодировать позицию, если подаём 2 связных текста (например, текст и его перевод). Из забавных работ по PE в нестандартных ситуациях нашёл эту - Novel positional encodings to enable tree-based transformers - скармливаем трансформеру дерево!
https://papers.nips.cc/paper/2019/file/6e0917469214d8fbd8c517dcdc6b8dcf-Paper.pdf
#реклама
13 декабря школа дизайна @bangbangeducation и проект Леkторuй проведут онлайн-фестиваль Человек: дизайн, технологии, наука, чувство.


Как мы существуем в онлайн-пространстве сегодня? Как презентовать себя в виртуальной реальности и как она способна изменить нашу идентичность? Какую роль в современных коммуникациях играют виртуальные артисты и блогеры? Как технологический прогресс влияет на наше ментальное здоровье? На эти и другие вопросы в рамках фестиваля вопросы ответят представители дизайн-индустрии, науки и искусства.

Вопросы спикерам можно будет задать в чате комьюнити Bang Bang Education Дизайн начинается с ⚫️.

Фестиваль бесплатный.

Расписание и регистрация
В некотором научном сообществе на крупных конференциях вручается приз - эта статуэтка - за то, что докладчик первым среди участников упомянит это...
Anonymous Quiz
33%
имя Шмидхубера
6%
датасет
9%
первую нейросеть
6%
название своего доклада
20%
первую статью про GAN
25%
слово "F**K"