Small Data Science for Russian Adventurers
11.2K subscribers
300 photos
3 videos
13 files
702 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#интересно
ОзонМастерса больше нет, но о некоторых недоделанных проектах можно написать... мало, кто знает, что у ОМ и Юрия Дорна не так давно появился подкаст "Рандомные дрова", и хотя успел выйти всего один выпуск "DS изнутри. Рассказываем как начать, куда расти и чего ожидать на карьерном пути датасаентиста", но он довольно интересный и гости хорошие;)
https://music.yandex.ru/album/22354556?dir=desc&activeTab=about
#конференция
А вот летняя школа от Сбера для преподавателей (не всё же студентам учиться):
https://sbergraduate.ru/digitalsummer/
#забавно
Какая долгая судьба у работы...
Статья Why Random Reshuffling Beats Stochastic Gradient Descent была впервые выложена на Arxiv в 2015 году
https://arxiv.org/abs/1510.08560
В 2019 она выложена на сайте журнала Mathematical Programming (с модификациями)
https://link.springer.com/article/10.1007/s10107-019-01440-w
Официально она опубликована в номере только 2021 года: Mathematical Programming volume 186, pages 49–84 (2021)
А последняя правка на Arxive сделана в этом году.
Статью пишут уже 7 лет;)
#забавно
В комментариях к предыдущему посту я поделился ссылкой, но надо бы её вынести на всеобщее обозрение - там есть любопытные статьи (с самым длинным названием, с самым коротким заголовком, с наибольшим числом ссылок и т.п.) А на картинке - мотивашка - такие статьи тоже бывают;) Кстати, я подобную диссертацию видел, и ничего, человек защитился. А через несколько лет он и подобную докторскую представил, точно не помню, вроде страниц 18 всего.
https://www.researchgate.net/post/Have_you_seen_these_strange_statistics_in_scientific_publications
#мысли
У меня есть приятель, который получил такое же образование как я и даже работает формально DS-ом (точнее научным сотрудником в одном институте, но его отдел решает релевантные задачи), но совершенно не держит руку на пульсе современного машинного обучения. В частности, весь DL прошёл мимо нет - по работе это ему не нужно. Но иногда он всё-таки натыкается на какую-нибудь современную статью. Иногда он мне звонит и консультируется. И в принципе, задаёт вполне логичные вопросы для математика. Например, "слушай, тут написано CrossEntropyLoss, но это же вообще не похоже на перекрёстную энтропию, походу они ошиблись?" Кстати, хороший вопрос для экзамена/собеса, а почему не похоже;) Я тут решил подумать, а есть ли какой-то лёгкий путь "из математики в DS". Обнаружил, что создатели англоязычной Wiki (на русском этого нет) уже позаботились о людях. Например, в статье Cross Entropy есть специальный раздел про применение в машинном обучении (а ведь не так давно не было).
#юмор
Одним из моих старых увлечений были "странные тесты" - когда составляешь тест с виду из вполне корректных вопросов, они реально где-то как-то возникают и задаются, но каждый вопрос очень нестандартный, неожиданный и отпугивающий.

Вот, например, по мотивам этой статьи рождается вопрос: какой из представленный вероятностных симплексов соответствует распределению Дирихле?
#соревнование
Список текущих соревнований по анализу данных и машинному обучению на российских платформах (если что-то забыл - кидайте в комментарии):

Антихакатон от ВкусВилла
задача - увеличение выручки
специфика - на последнем этапе тестирование идей в торговых точках сети
окончание регистрации - 21 июня
старт - 23 июня
приз - 150 000
https://data-hackathon.vkusvill.ru

Всероссийский чемпИИонат по Computer Vision и Big Data
три задачи - предотвращение чс на жд, тенденции новостей, привязка аэроснимков к местности
окончание регистрации - 18 июля
старт - 26 июня
приз - 250 000 за 1 место
https://hacks-ai.ru/championships/758453

Искусственный интеллект в химии (для школьников)
задача - предсказание биологических свойств наночастиц
специфика - есть ещё воркшоп
окончание регистрации - 27 июля
приз - стажировка / поступление в ИТМО
https://scamt.ifmo.ru/datacon/

Machines Can See
задача - верификация моделей автомобилей
окончание регистрации - 24 июня (соревнование уже идёт)
окончание соревнования - 1 июля (осталась всего 1 неделя активной фазы соревнования)
приз - 300 000 за 1 место
https://ods.ai/competitions/mcs_car_verification

Соревнование на данных кредитных историй
задача - предсказание кредитного дефолта
окончание регистрации - можно до конца (соревнование уже идёт)
окончание соревнования - 31 июля
приз - 300 000 за 1 место
https://ods.ai/competitions/dl-fintech-bki
#юмор
На тему соавторства...
#статьи
Небольшое, но довольно чёткое онлайн-руководство по наукометрии от ВШЭ (какие показатели используются, как выбирать журнал для публикации, что такое ORCID и т.п.)
http://sciguide.hse.ru
#визуализация
Важнейшие статистические идеи последних лет (там ещё ссылка на статью есть).
https://yangx.top.graphics/line/459681
#интересно
Нашёл тут перевод hinge loss как петлевой. И в данном случае такой дословный перевод, на мой взгляд, не совсем удачен. В английском языке слово hinge имеет значение петля в смысле "крепление дверей и окон", в разрезе это приспособление напоминает соответствующую функцию. У нас слово "петля" ассоциируется в первую очередь с "петлёй для висельника", во вторую - с "мёртвой петлёй" (можете провести эксперимент, опросив знакомых). Если вбить в гугл-картинки "петлевой", то в первой сотне не будет чего-то похожего на соответствующую функцию.
#визуализация
Немного секса в ленту… исследование интимной жизни по результатам опроса более 50 тыс. человек. Результаты опроса можно скачать;)
https://www.russiainbed.ru
#курс
В этом году мой образовательный проект по глубокому обучению пополнился видеозаписями лекций. Записал не всё, что хотел, но я никогда и не успеваю всё прочитывать:)

Семинары пока не выложены (по хорошему лучше сделать параллельный практический курс "не вылезая из пайторча").
#книга
Ив Хилпиш "Python для финансовых расчетов"
В книгу попытались включить всё, что только можно: тут есть и про питон и про менеджеры пакетов и про докер и про разные библиотеки и про визуализацию. Последняя треть книги непосредственно про финансовые задачи. Я книгу внимательно не читал, но всю просмотрел. Не смотря на "солянку" вроде получилось неплохо: много примеров кода, картинок, пояснений финансовой теории.
#забавно
Есть сайт с объяснением смысла xkcd-комиксов.
Вот, например, объяснение последнего. Надо заметить, что многие объяснения очень качественные - прям заморачивались.
#поздравление
Мы сегодня сделали последний выпуск ОзонМастерс! Всем выпускникам удачной карьеры и много новых открытий!

П.С. Нашу образовательную программу мы сохраним. Она скоро возродится немного под другим названием;)
#полезно
Материалы по теории оптимизации, есть ссылки на другие полезные ресурсы.
https://fmin.xyz