Small Data Science for Russian Adventurers
11.2K subscribers
300 photos
3 videos
13 files
702 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#конференция
Года 3 назад постил эту ссылку, но если кто-то не добавил в закладки...
Список научных школ по машинному обучению (в том числе будущих):
https://github.com/sshkhr/awesome-mlss
#история (которую я часто рассказываю в своём курсе)

На одном из хакатонов, который проводила крупная нефтяная компания, в финале участники выступали с презентациями о своих решениях задачи прогнозирования дебита нефти... Почти все настраивали бустинг (различались лишь библиотеки), генерировали признаки, искали лики и т.п.

Предпоследним вышел парень из Уфы, который занял 2е место в лидерборде, и сказал: я не очень понимаю смысл всего, что тут говорилось, такие слова как "бустинг" я слышу в первый раз. Я учусь "в нефтянке", нас учили, что есть такая формула для дебита (выводит на слайд небольшую формулу), я просто в неё подставил известные значения, а неизвестные прикинул, какими они могли бы быть.
#к_вопросу
В одной из статей авторы добавили к названию предложенной нейронки (трансформеру) такой забавный значок. Ниже вопрос;)
#забавно
Потестил новую отечественную генеративную модель.
Слева генерация по запросу "Сотрудница Cбера пишет ruDALL-E", справа - "Сотрудник Сбера не пишет ruGPT4".
#приёмы
На своих курсах я часто сообщаю такой приём: не выбрасывать плохие данные, а примерить их пусть не для моделирования, но для служебных задач. Например, у Вас есть кусок данных, где много неизвестных значений, а в целевых значениях много выбросов. Можно изъять его из обучения (допустим это повышает качество), но использовать, например, для mean target encoding категориальных признаков (и утечки не будет и кодирование будет вполне нормальным).
#чужие_блоги
Есть такой не очень часто упоминаемый блог Amit Chaudhary. С 2021 года он, к сожалению, не пополняется, но там есть очень неплохие посты с качественными авторскими рисунками. Вот, например, рисунок из поста про подсчёт Average Precision (AP).
#опрос
Мне сейчас актуальны проблемы качества образования. Поэтому я попробую использовать аудиторию канала для опроса. Какие-то общие выводы опроса я, конечно, в канале напишу...

Нас обычно привлекают
- преподаватели (которые отличаются от других харизмой, манерой подачи и т.п.),
- курсы (которые оказываются полезными и запоминаются),
- приёмы (ну какие-то фишки, которые редко встречаются, но вызывают "вау-эффект": интересные формы контрольных, неформальные обсуждения материала и т.д.)

Если у Вас что-то такое было, напишите в форму. Там всего несколько полей, можно заполнять несколько раз, за одно заполнение можно указать что-то одно (преподавателя, курс или приём). Также желательно кратко объяснить, а что Вас зацепило... Это НЕ обязательно должно быть связано с DS или MATH образованием! Любопытно всё интересное.

Заранее всем спасибо!
#книга
Jakub M. Tomczak "Deep Generative Modeling"
По ощущениям это как раз книга для продвинутого ML, т.к. в стандартных программах не всегда глубокие генеративные модели подробно излагаются. Автор довольно известен, у него очень симпатичный сайт и доклады о генеративных моделях на разных научных школах. Там и блог есть, но в нём излагаются главы книги.

Минус у книги один:
- не смотря на объём, глубоко в специфику отдельных методов автор не погружается.

Зато много плюсов:
+ обзор всех популярных классов генеративных моделей;
+ для каждого класса даётся перечень приёмов/улучшений со ссылками на первоисточниками;
+ даны примеры кода.
#ссылка
Учебные материалы по теории хаоса. В полном доступе выложена авторская книга (более 1000 страниц) и материалы курсов.
https://chaosbook.org/
AK_Analysis_I_14_04_23.pdf
3.4 MB
#жзл
Вчера не стало молодого талантливого математика - Александра Кулешова, но в память о нём осталась замечательная книга о математическом анализе.
#интересно
На ArXiv-е есть раздел статистики:
https://info.arxiv.org/help/stats/
Больше всего на него заливают препринтов в области Computer Science (в среднем сейчас более 200 в день), на втором месте - Math (более 100). И есть ещё раздел с отчётами:
https://info.arxiv.org/about/reports/index.html
Скачивают с ArXiv-а в день в среднем 1.5 млн статей (это по всем областям)!
#курс
По машинному обучению может быть "стандартный" курс - в нём излагаются задачи и методы (kNN, SVM, LogReg и т.п.), "практический" - в нём больше идут от прикладных задач и библиотек (часто практическая часть интегрируется в виде семинаров в стандартный курс), а ещё "математический" (в нём учат теоремы и доказательства в ML). Интересно, что современных обучающих программах почти нет "математического ML", когда-то в ШАДе Червоненкис читал что-то похожее, но всё-таки с большим уклоном в область своих научных интересов.

Смотрел курсы MIT-а, там как раз есть "Математика в ML". Не знаю, доступно ли видео (не нашёл), но в pdf-ках темы прописаны хорошо. На картинке курса нарисована иллюстрация базового понятия в теоретическом ML (подсказка: связано с VC-размерностью).
#термин
Как меняется значение термина со временем...

Сейчас термином cross-validation (перекрёстная проверка / скользящий контроль) называют практически любой способ "честной оценки её качества" (см. wiki). Более 20 лет назад под этим понимали, в основном, тестирование с равномерными разбиениям выборки:
- Leave-p-out cross-validation,
- Leave-one-out cross-validation,
- k-fold cross-validation.
А вот когда мы выборку делим на две части, на одной обучаемся, на другой контролируемся, называлось отложенным контролем (Holdout method) - видите, тут даже в названии нет "cross-validation".

И вот что написано на Wiki: "many sources instead classify holdout as a type of simple validation, rather than a simple or degenerate form of cross-validation".

На русской Wiki, кстати, вообще радикально отождествляют cross-validation = k-fold cross-validation (что соответствует старой терминологии).
#образование
Небольшой вопрос (для желающих). Понятно, что большинство читателей канала уже закончили обучение, но можно мысленно вернуться в студенчество и задаться вопросом "Какую бы учебную программу я хотел, если бы учится на DS?"

На картинке - вариант программы (4 года обучения). Что в ней не так по Вашему? Что следует удалить / добавить? Содержание дисциплин можно считать идеальным.
#образование
Запущена регистрация на БЕСПЛАТНУЮ программу AI Masters Набор 2023.

Программа готовит аналитиков и специалистов по Data Science с гибким набором курсов.
Продолжительность: 2 года,
Время занятий: по будням с 18:00 до 21:00,
Загрузка: в среднем 30 часов в неделю,
Обучение бесплатное.
Сайт программы с подробной информацией

Около 30 курсов, в том числе:
- Машинное обучение,
- Computer Vision & Video Processing,
- Вычислительная линейная алгебра,
- Математическая статистика и ее приложения,
- Big Data and Data Engineering,
- Продуктовая аналитика,
- Генеративные модели,
- Natural Language Processing,
- Reinforcement Learning,
- Вероятностные графические модели.

🗓 27 мая (суббота) в 12.00 состоится День открытых дверей в online формате.

👉 Ссылка на подключение

Любые вопросы пишите на почту [email protected] или кураторам проекта (их контакты - в соответствующем разделе на сайте).

👉 Подать заявку на поступление
#видео

Что посмотреть на выходных;) Два больших (трёхчасовых) видео.

Для любителей теории.
Сотрудники ФКН ВШЭ за 10 минут должны рассказать результат, которым гордятся. Очень интересный формат! Некоторые доклады получились зажигательными. Предупреждаю, что там темы в сторону от DS (например, есть доклады по алгебре и теории чисел).

Для любителей практики.
Рассказы про соревновательный DS от участников ML-тренировки. Это уже "старый добрый" формат.

В комментарии можно кинуть свои предложения на тему "что посмотреть на выходных";)
#книга
Свежая книга "Random Matrix Methods for Machine Learning" поможет понять, зачем в машинном обучении нужны функции комплексного переменного, интегралы по контуру, спектральная теория, комбинаторика и т.п. Есть следующие разделы
- Random Matrix Theory
- Statistical Inference in Linear Models
- Kernel Methods
- Large Neural Networks
- Large-Dimensional Convex Optimization
- Community Detection on Graphs
- Universality and Real Data

Например, в первом изучается спектр матрицы XX^T, которая много где возникает (в методе главных компонент, теории ядер и т.п.) А в четвёртом есть интересные результаты про т.н. двойной спуск.

Книга для очень подготовленного читателя!
#курс
В этом году дозалил некоторые видео своего расширенного курса по DL, все материалы лучше искать по общей ссылке:
https://alexanderdyakonov.wordpress.com/courses/
А ссылка на видеолекции (теперь их 36): здесь.
Опять не всё успел записать, что хотел, но в ближайшие годы, скорее всего, конкретно этот курс не будет читаться и пополняться.
#соревнование
Есть много разных соревнований по анализу данных, например, на известной платформе kaggle уклон в сторону машинного обучения. А есть ещё конкурсы по финансовому моделированию, например Financial Modeling and Excel Competitions. В последнем номере журнала Риск-менеджмент в кредитной организации интервью с участником таких конкурсов (там есть примеры задач и данных). Кстати, в них почти нет участников из России (в рейтинге этого года всего 2).
#планы
Уволился из МГУ. Теперь буду работать в Центральном университете.

Кстати, все, кто хочет поучаствовать в этом образовательном проекте, пишите в личку или на почту.