#конференция
Ещё про конференции, но теперь математические... сейчас проходит мероприятие под названием Вторая конференция Математических центров России. Интересны аннотации докладов - очень хороший срез "какая сейчас математика в России" (как в положительном, так и в отрицательном смысле). Да, не представлены все направления и все хорошие исследователи, но на удивление довольно разнообразный и внушительный состав участников.
П.С. Кстати, удивился, скольких же я знаю среди докладчиков (причём чаще в формате "жили в одном номере" на такой-то конференции). Тот случай, когда сам учёным не стал, но зато со всеми пожил;)
Ещё про конференции, но теперь математические... сейчас проходит мероприятие под названием Вторая конференция Математических центров России. Интересны аннотации докладов - очень хороший срез "какая сейчас математика в России" (как в положительном, так и в отрицательном смысле). Да, не представлены все направления и все хорошие исследователи, но на удивление довольно разнообразный и внушительный состав участников.
П.С. Кстати, удивился, скольких же я знаю среди докладчиков (причём чаще в формате "жили в одном номере" на такой-то конференции). Тот случай, когда сам учёным не стал, но зато со всеми пожил;)
#визуализация
И ещё один гид по правилам хорошей визуализации (не по библиотекам, а по подходам):
https://www.lunaticai.com/dv/
И ещё один гид по правилам хорошей визуализации (не по библиотекам, а по подходам):
https://www.lunaticai.com/dv/
#визуализация
Начался чемпионат мира по футболу в Катаре - естественно, я полез смотреть на аналитику и инфографику, подготовленную к турниру... что мне больше всего пока понравилось:
Детали чемпионата - красиво и интересно
https://multimedia.scmp.com/infographics/sport/article/3199517/qatar-world-cup-2022/index.html
Постеры на стену
https://www.graphicnews.com/en/pages/43217/soccer-fifa-world-cup-2022-wallchart-2
Начался чемпионат мира по футболу в Катаре - естественно, я полез смотреть на аналитику и инфографику, подготовленную к турниру... что мне больше всего пока понравилось:
Детали чемпионата - красиво и интересно
https://multimedia.scmp.com/infographics/sport/article/3199517/qatar-world-cup-2022/index.html
Постеры на стену
https://www.graphicnews.com/en/pages/43217/soccer-fifa-world-cup-2022-wallchart-2
South China Morning Post
The first Fifa World Cup hosted in the Middle East - a visual explainer to Qatar 2022
Here’s everything you need to know about the most controversial edition ever of the biggest tournament in world football via @scmpgraphics
#конференция
Завтра буду на форуме риск-менеджеров, поскольку часть подписчиков канала из этой среды, есть возможность "в живую" пообщаться;)
https://рисковики.рф/
Завтра буду на форуме риск-менеджеров, поскольку часть подписчиков канала из этой среды, есть возможность "в живую" пообщаться;)
https://рисковики.рф/
рисковики.рф
Форум риск-менеджеров 2025
4 июня 2025 г. Holiday Inn Сокольники, г. Москва
#статья
Вчера я изучал статьи про прогнозирование фондового рынка. Интересно, что почти все написаны людьми, которые довольно слабо разбираются в практическом ML. Вот беру случайную статью:
Stock market prediction using machine learning classifiers and social media, news
Больше 100 цитирований, в журнале из Q1 Scopus раздела General Computer Science, между прочим. Привожу табличку с оптимальными параметрами исследуемых алгоритмов, которая сразу вызовет кучу вопросов у профессионала;)
(в следующем посте могу кратко описать почему)
Вчера я изучал статьи про прогнозирование фондового рынка. Интересно, что почти все написаны людьми, которые довольно слабо разбираются в практическом ML. Вот беру случайную статью:
Stock market prediction using machine learning classifiers and social media, news
Больше 100 цитирований, в журнале из Q1 Scopus раздела General Computer Science, между прочим. Привожу табличку с оптимальными параметрами исследуемых алгоритмов, которая сразу вызовет кучу вопросов у профессионала;)
(в следующем посте могу кратко описать почему)
Комментарий к предыдущему посту...
В принципе, многое прозвучало в комментариях, но не все комментарии были корректны. Давайте для простоты возьмём случайный лес (RFC).
0) это, конечно, не параметры по умолчанию. По умолчанию в лесе 100 деревьев и min_samples_split=2, например.
-) то что min_samples_leaf=1 это нормально - читайте помощь (см. также ответ в комментариях к предыдыущему посту).
+) то что n_estimators=20 - это уже странно, обычно этот параметр даже и не перебирают ("чем больше, тем не хуже"). Хотя... в этой статье в выборке было 350 объектов (обучение) + 150 (тест), причём это же твиты, их можно сколько угодно насобирать... Но зато теперь верится, что при 20 деревьев качество уже вышло на максимум.
+) нет параметра max_features - это главный аргумент! Это, по сути, единственный параметр RFC, который нужно подобрать (причём значение по умолчанию редко бывает оптимальным). И раз уже перечислили всё, включая random_state, забыть самый важный параметр это сверхстранно.
https://scikit-learn.org/stable/modules/ensemble.html#random-forest-parameters
Кстати, раз уж я тут открыл помощь... Представляете, в RF изменили значения по умолчанию для max_features, уже много лет во всех реализациях RF было sqrt(n) - для классификации и 0.3n - для регрессии. Теперь для регрессии просто n (т.е. просматриваются все признаки)!
В принципе, многое прозвучало в комментариях, но не все комментарии были корректны. Давайте для простоты возьмём случайный лес (RFC).
0) это, конечно, не параметры по умолчанию. По умолчанию в лесе 100 деревьев и min_samples_split=2, например.
-) то что min_samples_leaf=1 это нормально - читайте помощь (см. также ответ в комментариях к предыдыущему посту).
+) то что n_estimators=20 - это уже странно, обычно этот параметр даже и не перебирают ("чем больше, тем не хуже"). Хотя... в этой статье в выборке было 350 объектов (обучение) + 150 (тест), причём это же твиты, их можно сколько угодно насобирать... Но зато теперь верится, что при 20 деревьев качество уже вышло на максимум.
+) нет параметра max_features - это главный аргумент! Это, по сути, единственный параметр RFC, который нужно подобрать (причём значение по умолчанию редко бывает оптимальным). И раз уже перечислили всё, включая random_state, забыть самый важный параметр это сверхстранно.
https://scikit-learn.org/stable/modules/ensemble.html#random-forest-parameters
Кстати, раз уж я тут открыл помощь... Представляете, в RF изменили значения по умолчанию для max_features, уже много лет во всех реализациях RF было sqrt(n) - для классификации и 0.3n - для регрессии. Теперь для регрессии просто n (т.е. просматриваются все признаки)!
#журнал
В линейке Nature есть специальный журнал для презентации наборов данных - "Scientific Data".
Вот, например, рисунок из статьи про новый датасет с фенотипами подсолнухов.
https://www.nature.com/sdata/
В линейке Nature есть специальный журнал для презентации наборов данных - "Scientific Data".
Вот, например, рисунок из статьи про новый датасет с фенотипами подсолнухов.
https://www.nature.com/sdata/
#интересно
В дискретной оптимизации модно брать какие-то идеи из природы и создавать очередную версию стохастической оптимизации с экзотическим названием. Так когда-то появились генетические и муравьиные алгоритмы. Есть такая команда: Дхиман, Куман и сотоварищи, которые особенно преуспели в этом. У них более 20 разных "природных алгоритмов", например
- Оптимизатор пятнистой гиены
- Оптимизатор чайки
- Оптимизатор императорского пингвина
- [свежее] Крысиный оптимизатор
В дискретной оптимизации модно брать какие-то идеи из природы и создавать очередную версию стохастической оптимизации с экзотическим названием. Так когда-то появились генетические и муравьиные алгоритмы. Есть такая команда: Дхиман, Куман и сотоварищи, которые особенно преуспели в этом. У них более 20 разных "природных алгоритмов", например
- Оптимизатор пятнистой гиены
- Оптимизатор чайки
- Оптимизатор императорского пингвина
- [свежее] Крысиный оптимизатор
#игра
Какая симпатичная идея: загадано слово, Вы пытаетесь его угадать, сообщая свой вариант. Вам указывается, какое по счёту Ваше слово от исходного, если слова упорядочить по близости (это сделано, видимо, какой-то нейронкой). Вот мой результат с первой попытки без подсказок - за 20 слов;)
Если эту идею развить - получатся неплохие конкурсы для «промпт-инженеров»!
https://контекстно.рф
Какая симпатичная идея: загадано слово, Вы пытаетесь его угадать, сообщая свой вариант. Вам указывается, какое по счёту Ваше слово от исходного, если слова упорядочить по близости (это сделано, видимо, какой-то нейронкой). Вот мой результат с первой попытки без подсказок - за 20 слов;)
Если эту идею развить - получатся неплохие конкурсы для «промпт-инженеров»!
https://контекстно.рф
#приёмы
В старом посте я описывал приём AV: решение задачи разделения обучения и теста позволяет понять
1) какие признаки стабильны,
2) как отобрать обучающую подвыборку максимально похожую на тест.
Из того, что я тогда не сказал, но это полезно:
1) логично встроить AV в процедуру отбора признаков (чтобы отбиралось не просто подпространство с высоким качеством решения, но и стабильное),
2) когда нет теста (а его на практике часто и нет) можно разбить объекты по времени (странно, но при решении прикладных задач это делают очень редко),
3) из нестабильных признаков часто получаются хорошие стабильные, причём с помощью простых приёмов (например, доход клиента делим на медианных доход в этом месяце). Поэтому AV можно встроить и в генератор признаков;)
В старом посте я описывал приём AV: решение задачи разделения обучения и теста позволяет понять
1) какие признаки стабильны,
2) как отобрать обучающую подвыборку максимально похожую на тест.
Из того, что я тогда не сказал, но это полезно:
1) логично встроить AV в процедуру отбора признаков (чтобы отбиралось не просто подпространство с высоким качеством решения, но и стабильное),
2) когда нет теста (а его на практике часто и нет) можно разбить объекты по времени (странно, но при решении прикладных задач это делают очень редко),
3) из нестабильных признаков часто получаются хорошие стабильные, причём с помощью простых приёмов (например, доход клиента делим на медианных доход в этом месяце). Поэтому AV можно встроить и в генератор признаков;)
#поздравление
Команда "Антиплагиат" выиграла конкурс Up Great «ПРО//ЧТЕНИЕ» по созданию системы автоматической проверки школьных сочинений на русском языке. Причём проверяются не только орфография и пунктуация, но и верное изложение фактов, логика повествования и т.п. Кроме того, по найденным ошибкам может даваться развёрнутый комментарий.
https://upgreat.one/media-center/news/v-rossii-sozdali-iskusstvennyy-intellekt-dlya-redaktirovaniya-sochineniy/
Команда "Антиплагиат" выиграла конкурс Up Great «ПРО//ЧТЕНИЕ» по созданию системы автоматической проверки школьных сочинений на русском языке. Причём проверяются не только орфография и пунктуация, но и верное изложение фактов, логика повествования и т.п. Кроме того, по найденным ошибкам может даваться развёрнутый комментарий.
https://upgreat.one/media-center/news/v-rossii-sozdali-iskusstvennyy-intellekt-dlya-redaktirovaniya-sochineniy/
upgreat.one
В России создали искусственный интеллект для редактирования сочинений
Технологические конкурсы UP GREAT. Новости. В России создали искусственный интеллект для редактирования сочинений.
#полезно
Довольно любопытный блог, в основном тут описываются идеи научных статей. Тематика: оптимизация, тензорные разложения, GAN-ы. Из последних интересных постов: качество на тестовой выборке почти совпадает с качеством на синтетической выборке, построенной с помощью GAN-a, обученного на обучении (т.е. предсказывается качество на тесте).
https://www.offconvex.org
Довольно любопытный блог, в основном тут описываются идеи научных статей. Тематика: оптимизация, тензорные разложения, GAN-ы. Из последних интересных постов: качество на тестовой выборке почти совпадает с качеством на синтетической выборке, построенной с помощью GAN-a, обученного на обучении (т.е. предсказывается качество на тесте).
https://www.offconvex.org
#интересно
Ещё из коллекции довольно известных ресурсов, но которые здесь пока не упоминались. Очень няшное объяснение теории игр (не всей, конечно, а только одной задачи). Красиво и интерактивно сделано, будет понятно всем, даже если Вы не любите математику, но любите играть и спорить;)
https://notdotteam.github.io/trust/
Ещё из коллекции довольно известных ресурсов, но которые здесь пока не упоминались. Очень няшное объяснение теории игр (не всей, конечно, а только одной задачи). Красиво и интерактивно сделано, будет понятно всем, даже если Вы не любите математику, но любите играть и спорить;)
https://notdotteam.github.io/trust/
notdotteam.github.io
Эволюция доверия
интерактивное руководство теории игр о том, зачем и как мы доверяем друг другу
Всех читателей канала с Новым годом!
Побольше новых знаний, интересного досуга, полезных проектов, больших доходов и крепкого здоровья!
«Новый год не был бы Новым годом, если бы не было о чём сожалеть» (Вильям Томас).
П.С. На фото - как генеративная модель видит новогодний праздник для читателей канала;)
Побольше новых знаний, интересного досуга, полезных проектов, больших доходов и крепкого здоровья!
«Новый год не был бы Новым годом, если бы не было о чём сожалеть» (Вильям Томас).
П.С. На фото - как генеративная модель видит новогодний праздник для читателей канала;)
#книги
Несколько книг в свободном доступе по SQL и бизнес-аналитике (половина в процессе написания)
https://dataschool.com/books/
Несколько книг в свободном доступе по SQL и бизнес-аналитике (половина в процессе написания)
https://dataschool.com/books/
#видео
Выложен в виде коротких нарезок самый нестандартный мини-курс на ВМК "Как уйти с тропы леммингов". Про планирование карьеры, выгорание, здоровье, конкуренцию и т.п.
Автор - Дмитрий Ватолин, известный постами на Хабре, в частности:
- К вопросу о математических способностях студентов или как учить переполненный мозг
- О русской науке замолвите слово или за что я люблю Тинькофф, часть 1
Если кто-то посмотрит, интересно услышать мнение в комментариях;)
Выложен в виде коротких нарезок самый нестандартный мини-курс на ВМК "Как уйти с тропы леммингов". Про планирование карьеры, выгорание, здоровье, конкуренцию и т.п.
Автор - Дмитрий Ватолин, известный постами на Хабре, в частности:
- К вопросу о математических способностях студентов или как учить переполненный мозг
- О русской науке замолвите слово или за что я люблю Тинькофф, часть 1
Если кто-то посмотрит, интересно услышать мнение в комментариях;)
#интересно
Шмидхубер написал очередную версию истории искусственного интеллекта.
https://people.idsia.ch/~juergen/deep-learning-history.html
Шмидхубер написал очередную версию истории искусственного интеллекта.
https://people.idsia.ch/~juergen/deep-learning-history.html
#код
Демки разных методов, есть код на Python, R, Julia и Matlab. Ничего сверхполезного вроде нет, но для новичков будет в самый раз.
http://www.numerical-tours.com/
Демки разных методов, есть код на Python, R, Julia и Matlab. Ничего сверхполезного вроде нет, но для новичков будет в самый раз.
http://www.numerical-tours.com/
#визуализация
Из лучших визуализаций прошлого года мне больше всего понравились:
* анализ крупнейшего наводнения в Австралии
https://www.smh.com.au/interactive/2022/lismore-flooding/
* яркая статистика гонок F1 (правда за 2021 год), даже со звуковыми эффектами
https://f1.obumbratta.com/
Из лучших визуализаций прошлого года мне больше всего понравились:
* анализ крупнейшего наводнения в Австралии
https://www.smh.com.au/interactive/2022/lismore-flooding/
* яркая статистика гонок F1 (правда за 2021 год), даже со звуковыми эффектами
https://f1.obumbratta.com/