#математика
Eсть красивая теорема, которая описывает геометрическое расположение собственных значений матрицы на комплексной плоскости - Gershgorin circle theorem (GCT)
https://en.wikipedia.org/wiki/Gershgorin_circle_theorem
Она доказана советским математиком, но русской страницы на Wiki про неё нет, а узнал я о ней листая теоретические работы по рекуррентным сетям;)
Eсть красивая теорема, которая описывает геометрическое расположение собственных значений матрицы на комплексной плоскости - Gershgorin circle theorem (GCT)
https://en.wikipedia.org/wiki/Gershgorin_circle_theorem
Она доказана советским математиком, но русской страницы на Wiki про неё нет, а узнал я о ней листая теоретические работы по рекуррентным сетям;)
Wikipedia
Gershgorin circle theorem
In mathematics, the Gershgorin circle theorem may be used to bound the spectrum of a square matrix. It was first published by the Soviet mathematician Semyon Aronovich Gershgorin in 1931. Gershgorin's name has been transliterated in several different ways…
#soft
Небольшой софт от Микрософт для визуализации и анализа данных
https://cloudblogs.microsoft.com/opensource/2019/10/10/microsoft-open-sources-sanddance-visual-data-exploration-tool/
Небольшой софт от Микрософт для визуализации и анализа данных
https://cloudblogs.microsoft.com/opensource/2019/10/10/microsoft-open-sources-sanddance-visual-data-exploration-tool/
Microsoft Open Source Blog
Microsoft open sources SandDance, a visual data exploration tool - Microsoft Open Source Blog
SandDance, the beloved data visualization tool from Microsoft Research, has been re-released as an open source project on GitHub.
#интересно
В этой работе изучали среднюю температуру человеческого тела. Если верить всему, что написано и не задумываться о представительности выборок, то в течение жизни человека она падает. У женщин она чуть выше. И самое интересное, за последние годы она снижается, причём линейно, «норма» 36.6 100 лет назад была в районе 36.9!
https://elifesciences.org/articles/49555
В этой работе изучали среднюю температуру человеческого тела. Если верить всему, что написано и не задумываться о представительности выборок, то в течение жизни человека она падает. У женщин она чуть выше. И самое интересное, за последние годы она снижается, причём линейно, «норма» 36.6 100 лет назад была в районе 36.9!
https://elifesciences.org/articles/49555
eLife
Decreasing human body temperature in the United States since the Industrial Revolution
Since the Industrial Revolution, normal body temperature in both men and women has decreased monotonically by 0.03°C per birth decade.
#CATBoost
За что я не люблю катбуст - за постоянные сюрпризы и невозможность простого использования в стандартных пайплайнах. Есть же самая популярная ML-библитека scikit-learn и многие другие библиотеки в неё нормально интегрируются (xgboost, lightgbm и т.п.). Вот сейчас, в готовый код вставил
import catboost as cb
cb.CatBoostClassifier(subsample=0.6, iterations=50, learning_rate=0.3, depth=4, silent=True, random_seed=1)
и всё вывалилось с ошибкой "CatBoostError: You can't change params of fitted model." на строке
model.set_params(**{'random_seed': t});
Что, правда? После стольких лет разработки - нельзя динамически менять параметры?!
Поковырялся в исходниках - ошибка появляется после if self.is_fitted() (т.е. обученную модель не трогают).
Любой другой современный бустинг, имеющий в python-имплементации sklearn-совместимую функуцию нормально бы отработал, только надо было бы написать
model.set_params(**{'random_state': t});
За что я не люблю катбуст - за постоянные сюрпризы и невозможность простого использования в стандартных пайплайнах. Есть же самая популярная ML-библитека scikit-learn и многие другие библиотеки в неё нормально интегрируются (xgboost, lightgbm и т.п.). Вот сейчас, в готовый код вставил
import catboost as cb
cb.CatBoostClassifier(subsample=0.6, iterations=50, learning_rate=0.3, depth=4, silent=True, random_seed=1)
и всё вывалилось с ошибкой "CatBoostError: You can't change params of fitted model." на строке
model.set_params(**{'random_seed': t});
Что, правда? После стольких лет разработки - нельзя динамически менять параметры?!
Поковырялся в исходниках - ошибка появляется после if self.is_fitted() (т.е. обученную модель не трогают).
Любой другой современный бустинг, имеющий в python-имплементации sklearn-совместимую функуцию нормально бы отработал, только надо было бы написать
model.set_params(**{'random_state': t});
#соревнование
Какой-то очередной хакатон по теме цифровизации индустрии туризма с призовым фондом ~ 1млн руб.
https://travelhack.moscow/#
Какой-то очередной хакатон по теме цифровизации индустрии туризма с призовым фондом ~ 1млн руб.
https://travelhack.moscow/#
business.russpass.ru
Moscow Travel Hack 2024
#статья
Самый типичный вопрос при изучении метрических алгоритмов - какая метрика лучше? Хотя разные метрики, в целом, некорректно сравнивать, есть такая обзорная работа. Интересно, что в журнальном варианте она вышла в прошлом году, хотя её первая версия была залита на Arxiv ещё в 2017. Эксперименты в ней можно критиковать, но лучше, чем ничего...
https://arxiv.org/abs/1708.04321
Самый типичный вопрос при изучении метрических алгоритмов - какая метрика лучше? Хотя разные метрики, в целом, некорректно сравнивать, есть такая обзорная работа. Интересно, что в журнальном варианте она вышла в прошлом году, хотя её первая версия была залита на Arxiv ещё в 2017. Эксперименты в ней можно критиковать, но лучше, чем ничего...
https://arxiv.org/abs/1708.04321
arXiv.org
Distance and Similarity Measures Effect on the Performance of...
The K-nearest neighbor (KNN) classifier is one of the simplest and most common classifiers, yet its performance competes with the most complex classifiers in the literature. The core of this...
#DL
Очень нравятся ресурсы, которые демонстрируют некоторые DL-методы, пусть и в упрощённом стиле. Например, как из этой подборки (очень удобно давать студентам, которые про DL раньше не слышали):
https://pikabu.ru/story/21_sayt_gde_mozhno_protestirovat_rabotu_neyrosetey_6697786
Очень нравятся ресурсы, которые демонстрируют некоторые DL-методы, пусть и в упрощённом стиле. Например, как из этой подборки (очень удобно давать студентам, которые про DL раньше не слышали):
https://pikabu.ru/story/21_sayt_gde_mozhno_protestirovat_rabotu_neyrosetey_6697786
Пикабу
21 сайт, где можно протестировать работу нейросетей
Убийцы свободного времени
#книга
Почти про каждую тему в ML можно сделать отдельный курс. Это часто имеет смысл, например, если делать идеальную бакалаврскую программу по анализу данных, в ней могли бы быть отдельные курсы по регрессии, кластеризации и т.п. Вот неплохой конспект лекций "A Comprehensive Guide to Machine Learning" - тут много об одном и том же - линейная регрессия во всех проявлениях (вероятностная постановка, добавление весов объектов и т.п.), но этим книжка и хороша - не везде есть подробности:
http://snasiriany.me/files/ml-book.pdf
Почти про каждую тему в ML можно сделать отдельный курс. Это часто имеет смысл, например, если делать идеальную бакалаврскую программу по анализу данных, в ней могли бы быть отдельные курсы по регрессии, кластеризации и т.п. Вот неплохой конспект лекций "A Comprehensive Guide to Machine Learning" - тут много об одном и том же - линейная регрессия во всех проявлениях (вероятностная постановка, добавление весов объектов и т.п.), но этим книжка и хороша - не везде есть подробности:
http://snasiriany.me/files/ml-book.pdf
#интересно
Известные популяризаторы решают задачи... а это, действительно, занятно;)
https://youtu.be/6WetHl8VN1I
Известные популяризаторы решают задачи... а это, действительно, занятно;)
https://youtu.be/6WetHl8VN1I
YouTube
Форт Боярд Математиков: Побединский, Wild Mathing, Савватеев, Трушин, Гарвард Оксфорд, Математик МГУ
Подписка: https://yangx.top/flesspro
Фантастическая пятёрка математиков - Алексей Савватеев, Борис Трушин, Дмитрий Побединский, Владимир Зубков (Гарвард Оксфорд) и Андрей Павликов (Математик МГУ, Хитман) - попала в замок Злого Духа (Wild Mathing). Выход из него…
Фантастическая пятёрка математиков - Алексей Савватеев, Борис Трушин, Дмитрий Побединский, Владимир Зубков (Гарвард Оксфорд) и Андрей Павликов (Математик МГУ, Хитман) - попала в замок Злого Духа (Wild Mathing). Выход из него…
#данные
Для тех, кому нужны датасеты - обновление известного поиска:
https://blog.google/products/search/discovering-millions-datasets-web/
Для тех, кому нужны датасеты - обновление известного поиска:
https://blog.google/products/search/discovering-millions-datasets-web/
Google
Discovering millions of datasets on the web
Dataset Search launches publicly with an index of 25 million datasets, helping scientists, journalists, students, data geeks to find data.
#работа
Много всего про soft-skills. Вроде, местами неплохие материалы попадаются...
https://vc.ru/learn/101011-samaya-bolshaya-podborka-po-prokachke-soft-skills-hvatit-na-vsyu-zhizn
Много всего про soft-skills. Вроде, местами неплохие материалы попадаются...
https://vc.ru/learn/101011-samaya-bolshaya-podborka-po-prokachke-soft-skills-hvatit-na-vsyu-zhizn
vc.ru
Самая большая подборка по прокачке soft skills. Хватит на всю жизнь — Образование на vc.ru
Чтобы развивать инновационную среду в компании, нужно начать с развития собственных навыков. Конечно, вы слышали про soft skills и уже знаете шутку, что за hard skills вас берут на работу, а за soft skills увольняют. Но что вас точно удивит, так это количество…
#соревнование
Конкурс "VoicePrivacy" при конференции Interspeech 2020:
https://www.voiceprivacychallenge.org/
Конкурс "VoicePrivacy" при конференции Interspeech 2020:
https://www.voiceprivacychallenge.org/
#статья
Статья со ссылкой на соответствующий сервис. Идея - облегчить трансферное обучения. Если Вы решаете задачу, в которой мало данных, то стандартный приём - взять предобученную на большом наборе данных нейросеть и "дотьюнить" её на Вашу задачу. Авторы задались вопросами: как выбрать подходящий большой датасет для первичного обучения нейросети, можно ли из него выделить подвыборку, максимально релевантную нашей задаче. Они даже сделали сервис с подобным функционалом;)
https://arxiv.org/abs/2001.02799
Статья со ссылкой на соответствующий сервис. Идея - облегчить трансферное обучения. Если Вы решаете задачу, в которой мало данных, то стандартный приём - взять предобученную на большом наборе данных нейросеть и "дотьюнить" её на Вашу задачу. Авторы задались вопросами: как выбрать подходящий большой датасет для первичного обучения нейросети, можно ли из него выделить подвыборку, максимально релевантную нашей задаче. Они даже сделали сервис с подобным функционалом;)
https://arxiv.org/abs/2001.02799
#математика
К вопросу о том, что в классической математике "совсем свежего": например, тропическая геометрия - она появилась уже в этом веке, всякие тропические полукольца применяются в экономике (считается, что с их помощью лучше формализуются процессы типа объединения компаний и т.п.), а также в ИИ (например, в т.н. Weighted Finite-State Transducers). Бегло ознакомиться с тропической геометрией можно с помощью этой небольшой книги:
https://www.mccme.ru/dubna/2006/notes/Kazaryan.pdf
К вопросу о том, что в классической математике "совсем свежего": например, тропическая геометрия - она появилась уже в этом веке, всякие тропические полукольца применяются в экономике (считается, что с их помощью лучше формализуются процессы типа объединения компаний и т.п.), а также в ИИ (например, в т.н. Weighted Finite-State Transducers). Бегло ознакомиться с тропической геометрией можно с помощью этой небольшой книги:
https://www.mccme.ru/dubna/2006/notes/Kazaryan.pdf
#конференции
Конференция «Оптимизация и приложения» в Черногории в конце сентября
http://agora.guru.ru/display.php?conf=optima-2020
Конференция «Оптимизация и приложения» в Черногории в конце сентября
http://agora.guru.ru/display.php?conf=optima-2020
#книга
Фантастика! Новая книга Нассима Талеба Статистические последствия тяжелых хвостов: преасимптотика, эпистемология и приложения просто выложена на Arxiv-е. Можно читать не дожидаясь, пока какое-нибудь модное издательство переведёт;)
https://arxiv.org/abs/2001.10488
Фантастика! Новая книга Нассима Талеба Статистические последствия тяжелых хвостов: преасимптотика, эпистемология и приложения просто выложена на Arxiv-е. Можно читать не дожидаясь, пока какое-нибудь модное издательство переведёт;)
https://arxiv.org/abs/2001.10488
#визуализация
Как сделать визуализацию огромной коллекции бабочек (всем, кто в душе немного Хемуль ;)
https://marian42.de/article/butterflies/
Как сделать визуализацию огромной коллекции бабочек (всем, кто в душе немного Хемуль ;)
https://marian42.de/article/butterflies/
Marian's Blog
Visualizing 150000 butterflies from the Natural History Museum
Visualizing 150000 butterflies from the Natural History Museum - Personal blog about game development, programming and making