Small Data Science for Russian Adventurers
11.2K subscribers
300 photos
3 videos
13 files
702 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#соревнование
Список текущих соревнований по анализу данных и машинному обучению на российских платформах (если что-то забыл - кидайте в комментарии):

Антихакатон от ВкусВилла
задача - увеличение выручки
специфика - на последнем этапе тестирование идей в торговых точках сети
окончание регистрации - 21 июня
старт - 23 июня
приз - 150 000
https://data-hackathon.vkusvill.ru

Всероссийский чемпИИонат по Computer Vision и Big Data
три задачи - предотвращение чс на жд, тенденции новостей, привязка аэроснимков к местности
окончание регистрации - 18 июля
старт - 26 июня
приз - 250 000 за 1 место
https://hacks-ai.ru/championships/758453

Искусственный интеллект в химии (для школьников)
задача - предсказание биологических свойств наночастиц
специфика - есть ещё воркшоп
окончание регистрации - 27 июля
приз - стажировка / поступление в ИТМО
https://scamt.ifmo.ru/datacon/

Machines Can See
задача - верификация моделей автомобилей
окончание регистрации - 24 июня (соревнование уже идёт)
окончание соревнования - 1 июля (осталась всего 1 неделя активной фазы соревнования)
приз - 300 000 за 1 место
https://ods.ai/competitions/mcs_car_verification

Соревнование на данных кредитных историй
задача - предсказание кредитного дефолта
окончание регистрации - можно до конца (соревнование уже идёт)
окончание соревнования - 31 июля
приз - 300 000 за 1 место
https://ods.ai/competitions/dl-fintech-bki
#юмор
На тему соавторства...
#статьи
Небольшое, но довольно чёткое онлайн-руководство по наукометрии от ВШЭ (какие показатели используются, как выбирать журнал для публикации, что такое ORCID и т.п.)
http://sciguide.hse.ru
#визуализация
Важнейшие статистические идеи последних лет (там ещё ссылка на статью есть).
https://yangx.top.graphics/line/459681
#интересно
Нашёл тут перевод hinge loss как петлевой. И в данном случае такой дословный перевод, на мой взгляд, не совсем удачен. В английском языке слово hinge имеет значение петля в смысле "крепление дверей и окон", в разрезе это приспособление напоминает соответствующую функцию. У нас слово "петля" ассоциируется в первую очередь с "петлёй для висельника", во вторую - с "мёртвой петлёй" (можете провести эксперимент, опросив знакомых). Если вбить в гугл-картинки "петлевой", то в первой сотне не будет чего-то похожего на соответствующую функцию.
#визуализация
Немного секса в ленту… исследование интимной жизни по результатам опроса более 50 тыс. человек. Результаты опроса можно скачать;)
https://www.russiainbed.ru
#курс
В этом году мой образовательный проект по глубокому обучению пополнился видеозаписями лекций. Записал не всё, что хотел, но я никогда и не успеваю всё прочитывать:)

Семинары пока не выложены (по хорошему лучше сделать параллельный практический курс "не вылезая из пайторча").
#книга
Ив Хилпиш "Python для финансовых расчетов"
В книгу попытались включить всё, что только можно: тут есть и про питон и про менеджеры пакетов и про докер и про разные библиотеки и про визуализацию. Последняя треть книги непосредственно про финансовые задачи. Я книгу внимательно не читал, но всю просмотрел. Не смотря на "солянку" вроде получилось неплохо: много примеров кода, картинок, пояснений финансовой теории.
#забавно
Есть сайт с объяснением смысла xkcd-комиксов.
Вот, например, объяснение последнего. Надо заметить, что многие объяснения очень качественные - прям заморачивались.
#поздравление
Мы сегодня сделали последний выпуск ОзонМастерс! Всем выпускникам удачной карьеры и много новых открытий!

П.С. Нашу образовательную программу мы сохраним. Она скоро возродится немного под другим названием;)
#полезно
Материалы по теории оптимизации, есть ссылки на другие полезные ресурсы.
https://fmin.xyz
#забавно
На выпускном ОзонМастер мы проводим разные конкурсы-викторины, например, один из конкурсов - ML-quiz. Есть серия задания про мемы, пример на картинке - догадаться, что скрыто за маской.

Другой набор заданий - цитаты. Например, назвать автора (писателя) цитаты
“Data! Data! Data!" he cried impatiently. "I can't make bricks without clay.”
Кстати, вроде бы это единственный случай в мировой литературе, когда слово "данные" повторено три раза.

Или вот ещё, мой любимый вопрос... В рассказе Фредерика Брауна все компьютеры галактики собрали в одну сеть. Первый вопрос, который задали получившемуся суперкомпьютеру был "Есть ли бог?", что ответил этот "ИИ"?
#интересно
Кстати про мемы (вообще говоря, не связанные с ML), нашёл мало кому известный канал, в котором описывается, что взято за основу мема (большей частью про картины). Наверняка, есть другие специализированные ресурсы, объясняющие мемы (можно написать в комментариях).
#интересно
Вот какой MNIST "сложный" датасет! Столько лет понадобилось, чтобы превзойти точность человека. График - доработка графика из этой статьи.
#математика
Объявлены Филдсовские лауреаты этого года (по ссылке можно посмотреть CV победителей, публикации, краткое описание научных работ). Области в которых работали лауреаты: комбинаторика, теория чисел, статфиз.
https://www.mathunion.org/imu-awards/fields-medal/fields-medals-2022
#термин
В последнее время мне несколько раз попался термин трансвычислительная задача - задача, которая не могла бы быть решена, если бы решалась компьютером размером с нашу планету на предельной скорости всё время существования планеты. Есть даже константа 10^93 т.н. предел Бремерманна - число бит, которое этот компьютер успеет обработать. Термин, конечно, условный и почти бесполезный, однако, задаёт некоторый "бенчмарк" для сравнения различных задачи. Например, задача коммивояжёра при числе городов n=67 становится трансвычислительной (если решать тупым перебором - что почему-то не всегда оговаривают). Что интуитивно совсем немного (когда на практике возникала такая задача, то чаще n>100).
#планы
Я тут задумал покинуть ВМК МГУ (в котором работал ровно 19 лет) – и было хорошее предложение и даже запасной вариант, но последние события внесли коррективы, в том числе и в мои планы. Поэтому, по крайней мере, на следующий учебный год я ещё остаюсь на прежнем месте работы (добью стаж до 20;). Однако есть несколько предложений в образовательно-академической среде, над которыми я буду думать, в том числе руководство административными единицами (кафедра в вузе, лаборатория и даже целый академический институт).
Основная проблема в том, что почти во всех хороших предложениях нужна команда, которой у меня сейчас нет (в том числе, из-за отъездов компетентных людей за границу в последнее время). Но может, среди читателей канала есть желающие посотрудничать;) Например, я знаю, что есть много ведущих самостоятельные интересные проекты – есть возможность реализовать их в рамках исследовательской группы или получить какой-нибудь допресурс (например, вычислительные мощности). Короче, до осени я открыт на обсуждение всяких авантюр (с перерывом на отпуск, когда я буду просто думать и выбирать...).

И не менее важное обращение - по возрождению "_ _ _ _ Мастерс" - всё хорошо, но наша команда (курсов ML и DL) тоже поредела, поэтому ищем в неё пополнение. Если хотите и умеете преподавать - добро пожаловать к нам (особая надежда на бывших выпускников программы ;).
#критика
В одном из каналов решили сделать тему "вопросы с собеседований"... просто взял последние 3 сообщения (специально не выбирал).

"Графическое изображение" - интересно, а может ли изображение быть не графическим?

"изображение контраста" - вот этой фразы я совсем не понимаю. Почему не написать просто "график зависимости такого-то от такого-то"?

ЗБЧ "это принцип". Самое забавное, что это взято из русской Википедии (в английском варианте написано нормально и строго). Странно закон называть принципом, т.к. согласно той же Вики на основе принципов выводят законы.

"Ансамбль - это использование". Тут явно пытаются определить не ансамбль, а ансамблирование.

Вообще, ещё в школе учат: определение начинается с чёткого указания природы объекта. Например,
треугольник - это геометрическая фигура... (дальше уже говорится какая).

Если же давать определение так...
треугольник - это когда три разные точки соединяют отрезками, то получается совсем не определение, хотя суть почти верна.