Small Data Science for Russian Adventurers
11.2K subscribers
300 photos
3 videos
13 files
702 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#статья
Вчера я изучал статьи про прогнозирование фондового рынка. Интересно, что почти все написаны людьми, которые довольно слабо разбираются в практическом ML. Вот беру случайную статью:
Stock market prediction using machine learning classifiers and social media, news
Больше 100 цитирований, в журнале из Q1 Scopus раздела General Computer Science, между прочим. Привожу табличку с оптимальными параметрами исследуемых алгоритмов, которая сразу вызовет кучу вопросов у профессионала;)
(в следующем посте могу кратко описать почему)
Комментарий к предыдущему посту...

В принципе, многое прозвучало в комментариях, но не все комментарии были корректны. Давайте для простоты возьмём случайный лес (RFC).

0) это, конечно, не параметры по умолчанию. По умолчанию в лесе 100 деревьев и min_samples_split=2, например.

-) то что min_samples_leaf=1 это нормально - читайте помощь (см. также ответ в комментариях к предыдыущему посту).

+) то что n_estimators=20 - это уже странно, обычно этот параметр даже и не перебирают ("чем больше, тем не хуже"). Хотя... в этой статье в выборке было 350 объектов (обучение) + 150 (тест), причём это же твиты, их можно сколько угодно насобирать... Но зато теперь верится, что при 20 деревьев качество уже вышло на максимум.

+) нет параметра max_features - это главный аргумент! Это, по сути, единственный параметр RFC, который нужно подобрать (причём значение по умолчанию редко бывает оптимальным). И раз уже перечислили всё, включая random_state, забыть самый важный параметр это сверхстранно.

https://scikit-learn.org/stable/modules/ensemble.html#random-forest-parameters

Кстати, раз уж я тут открыл помощь... Представляете, в RF изменили значения по умолчанию для max_features, уже много лет во всех реализациях RF было sqrt(n) - для классификации и 0.3n - для регрессии. Теперь для регрессии просто n (т.е. просматриваются все признаки)!
#журнал
В линейке Nature есть специальный журнал для презентации наборов данных - "Scientific Data".
Вот, например, рисунок из статьи про новый датасет с фенотипами подсолнухов.
https://www.nature.com/sdata/
#интересно
В дискретной оптимизации модно брать какие-то идеи из природы и создавать очередную версию стохастической оптимизации с экзотическим названием. Так когда-то появились генетические и муравьиные алгоритмы. Есть такая команда: Дхиман, Куман и сотоварищи, которые особенно преуспели в этом. У них более 20 разных "природных алгоритмов", например
- Оптимизатор пятнистой гиены
- Оптимизатор чайки
- Оптимизатор императорского пингвина
- [свежее] Крысиный оптимизатор
#игра
Какая симпатичная идея: загадано слово, Вы пытаетесь его угадать, сообщая свой вариант. Вам указывается, какое по счёту Ваше слово от исходного, если слова упорядочить по близости (это сделано, видимо, какой-то нейронкой). Вот мой результат с первой попытки без подсказок - за 20 слов;)
Если эту идею развить - получатся неплохие конкурсы для «промпт-инженеров»!
https://контекстно.рф
#приёмы
В старом посте я описывал приём AV: решение задачи разделения обучения и теста позволяет понять
1) какие признаки стабильны,
2) как отобрать обучающую подвыборку максимально похожую на тест.

Из того, что я тогда не сказал, но это полезно:
1) логично встроить AV в процедуру отбора признаков (чтобы отбиралось не просто подпространство с высоким качеством решения, но и стабильное),
2) когда нет теста (а его на практике часто и нет) можно разбить объекты по времени (странно, но при решении прикладных задач это делают очень редко),
3) из нестабильных признаков часто получаются хорошие стабильные, причём с помощью простых приёмов (например, доход клиента делим на медианных доход в этом месяце). Поэтому AV можно встроить и в генератор признаков;)
#поздравление
Команда "Антиплагиат" выиграла конкурс Up Great «ПРО//ЧТЕНИЕ» по созданию системы автоматической проверки школьных сочинений на русском языке. Причём проверяются не только орфография и пунктуация, но и верное изложение фактов, логика повествования и т.п. Кроме того, по найденным ошибкам может даваться развёрнутый комментарий.
https://upgreat.one/media-center/news/v-rossii-sozdali-iskusstvennyy-intellekt-dlya-redaktirovaniya-sochineniy/
#новости
Объявлены победители премии за популяризацию науки. По ссылке можно посмотреть детали, а я приведу цитату из книги победителя А. Семихатова

"Парабола - траектория самого неторопливого расставания."

и скажу, что "Квантик" и правда очень хорошо оформлен!
#полезно
Довольно любопытный блог, в основном тут описываются идеи научных статей. Тематика: оптимизация, тензорные разложения, GAN-ы. Из последних интересных постов: качество на тестовой выборке почти совпадает с качеством на синтетической выборке, построенной с помощью GAN-a, обученного на обучении (т.е. предсказывается качество на тесте).

https://www.offconvex.org
#интересно
Ещё из коллекции довольно известных ресурсов, но которые здесь пока не упоминались. Очень няшное объяснение теории игр (не всей, конечно, а только одной задачи). Красиво и интерактивно сделано, будет понятно всем, даже если Вы не любите математику, но любите играть и спорить;)
https://notdotteam.github.io/trust/
Всех читателей канала с Новым годом!

Побольше новых знаний, интересного досуга, полезных проектов, больших доходов и крепкого здоровья!

«Новый год не был бы Новым годом, если бы не было о чём сожалеть» (Вильям Томас).

П.С. На фото - как генеративная модель видит новогодний праздник для читателей канала;)
#книги
Несколько книг в свободном доступе по SQL и бизнес-аналитике (половина в процессе написания)
https://dataschool.com/books/
#видео
Выложен в виде коротких нарезок самый нестандартный мини-курс на ВМК "Как уйти с тропы леммингов". Про планирование карьеры, выгорание, здоровье, конкуренцию и т.п.

Автор - Дмитрий Ватолин, известный постами на Хабре, в частности:
- К вопросу о математических способностях студентов или как учить переполненный мозг
- О русской науке замолвите слово или за что я люблю Тинькофф, часть 1

Если кто-то посмотрит, интересно услышать мнение в комментариях;)
#интересно
Шмидхубер написал очередную версию истории искусственного интеллекта.
https://people.idsia.ch/~juergen/deep-learning-history.html
#код
Демки разных методов, есть код на Python, R, Julia и Matlab. Ничего сверхполезного вроде нет, но для новичков будет в самый раз.
http://www.numerical-tours.com/
#визуализация

Из лучших визуализаций прошлого года мне больше всего понравились:

* анализ крупнейшего наводнения в Австралии
https://www.smh.com.au/interactive/2022/lismore-flooding/

* яркая статистика гонок F1 (правда за 2021 год), даже со звуковыми эффектами
https://f1.obumbratta.com/
#книга
Сет Вейдман "Глубокое обучение: Лёгкая разработка проектов на питон"
По задумке книга такая, как и должна быть: сначала показывается, как сделать нейросеть «с нуля», причём отдельно по модулям, потом переходят к Pytorch. Мне только не понравилось, что предлагаемые способы реализации не имитируют высокоуровневые способы самого Pytorch. Лучше бы было просто разбираться, что внутри у nn.Linear, nn.Dropout и т.п. Потенциальна полезна для новичков, которые знают питон.
#интервью
Иногда просят "что-то прокомментировать" или "дать экспертное мнение". Интересно, что когда соглашаешься, то в 90% случаев потом это мнение куда-то пропадает. В сентябре меня попросили кратко (за 2-3 предложения) ответить на "модные вопросы по ИИ". Удивительно, но тут мои комментарии таки проникли в сеть, правда через 4 месяца (сам случайно нашёл в рекомендациях vk;)

Оригинал скриншота взял здесь.
#интервью
Я в канале уже давал ссылки на видеоинтервью с представителями ВШЭ, МФТИ и т.д. Для поддержание баланса - интервью с деканом мехмата МГУ (с руководителями мехмата интервью вообще большая редкость: до 2006го Лупанов интервью не давал, потом 13 лет на факультете не было декана, Шафаревича тоже особо не слышно, хотя в интернете много его онлайн-лекций).
https://youtu.be/hwW_t9ojglo
#забавно
В прошлом году на reddit-е в разделе ML cамая популярная заметка - об "ИИ", который наказывает, если человек отвлекается от работы.
В лидерах также машинный перевод speech2speech и прикреплённая картинка с типами ML-статей.
А уже потом идут Stable Diffusion, ArcaneGAN и т.п.