Small Data Science for Russian Adventurers
11.2K subscribers
303 photos
3 videos
13 files
705 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#инфографика
Самые популярные сайты
#стеганография
Меня студенты (а пока подписчики этого канала только мои студенты/ученики) спрашивали про скрещивание стеганографии и ML, вот один из вариантов ответа:
https://steganography.live
#визуализация
Новогоднее... куда пришла зима: снег и лёд по состоянию на 25 декабря
https://redd.it/egb7x2
#забавно
Баян, но новогодний
https://redd.it/e7pn4p
#конференция
Подача заявок на конференцию в СПб по ИИ 23-26 июня 2020 года
http://agi-conf.org/2020/
#книга
Мартин О. "Байесовский анализ на Python" (Bayesian Analysis with Python)
Прочитал на каникулах книгу, которая очень понравилась по оглавлению и названию, но был разочарован... написано неплохо, перевод тоже хороший, тема интересная, но вот целевой аудитории для книги нет... если Вы не знаете ничего про байесовский анализ, то из книги не узнаете, если не умеете работать со специализированными пакетами, то ничему не научитесь, если не знаете методов машинного обучения, боюсь, что и не узнаете. Получилась "солянка" (всего понемножку), которая в русском издании, к тому же, немного устарела:(
#курс
Чтобы хорошо изучить какую-нибудь тему, лучше это делать с помощью «узкого курса», который подготовил специалист по этой теме: там глубокое погружение и часто внимание обращают на такие тонкости, которых Вы не узнаете из «универсальных курсов». В интернете полно хороших курсов по отдельным темам, которые «не на слуху». В качестве примера даю ссылку на курс Продвинутая регрессия: обобщенная линейная и логистическая регрессии, подробно рассмотрен метод максимального правдоподобия и экспоненциальное семейство распределений, различные статистические свойства параметров и из оценок. Весь код, к сожалению или счастью, на R и SAS (курс немного древний, но актуальности совсем не потерял)
http://web.as.uky.edu/statistics/users/pbreheny/760/S13/notes.html
#поучительно
Почти детективная и поучительная история... лучшего Российского кэглера Павла Плескова навечно забанили на соревновательной платформе kaggle.com
https://www.kaggle.com/c/petfinder-adoption-prediction/discussion/125436
Все подробности есть по ссылке. Кратко, в соревновании "PetFinder.my Adoption Prediction" команда Павла использовала правильные ответы на контрольной выборке, тщательно замаскировав это в коде. Обман выявился через несколько месяцев, вызвал негативную реакцию в Kaggle-сообществе, привёл к исключению членов команды из рейтинга Kaggle (вроде, не всех). Компания, в которой работал Павел, уволила его:
https://twitter.com/h2oai/status/1215806481339056128
Сам Павел извинился в своём сообщении в Твиттере:
https://twitter.com/ppleskov/status/1215983188876709888
Это не первая подобная скандальная история на Kaggle, почти все были связаны с Российскими участниками (например, ограничение "1 человек может участвовать только в 1 команде" появилось после действий ребят из Кирова).
#плагиат
Наверное, многие слышали про проект "Диссернет" - по борьбе с различными неэтическими моментами в Российской науке (плагиатом, липовыми защитами и т.п.),
например, есть анти-рейтинг Российских вузов
http://rosvuz.dissernet.org/
#математика
Eсть красивая теорема, которая описывает геометрическое расположение собственных значений матрицы на комплексной плоскости - Gershgorin circle theorem (GCT)
https://en.wikipedia.org/wiki/Gershgorin_circle_theorem
Она доказана советским математиком, но русской страницы на Wiki про неё нет, а узнал я о ней листая теоретические работы по рекуррентным сетям;)
#интересно
В этой работе изучали среднюю температуру человеческого тела. Если верить всему, что написано и не задумываться о представительности выборок, то в течение жизни человека она падает. У женщин она чуть выше. И самое интересное, за последние годы она снижается, причём линейно, «норма» 36.6 100 лет назад была в районе 36.9!
https://elifesciences.org/articles/49555
#CATBoost
За что я не люблю катбуст - за постоянные сюрпризы и невозможность простого использования в стандартных пайплайнах. Есть же самая популярная ML-библитека scikit-learn и многие другие библиотеки в неё нормально интегрируются (xgboost, lightgbm и т.п.). Вот сейчас, в готовый код вставил
import catboost as cb
cb.CatBoostClassifier(subsample=0.6, iterations=50, learning_rate=0.3, depth=4, silent=True, random_seed=1)

и всё вывалилось с ошибкой "CatBoostError: You can't change params of fitted model." на строке
model.set_params(**{'random_seed': t});
Что, правда? После стольких лет разработки - нельзя динамически менять параметры?!
Поковырялся в исходниках - ошибка появляется после if self.is_fitted() (т.е. обученную модель не трогают).
Любой другой современный бустинг, имеющий в python-имплементации sklearn-совместимую функуцию нормально бы отработал, только надо было бы написать
model.set_params(**{'random_state': t});
#соревнование
Какой-то очередной хакатон по теме цифровизации индустрии туризма с призовым фондом ~ 1млн руб.
https://travelhack.moscow/#