Small Data Science for Russian Adventurers
11.2K subscribers
300 photos
3 videos
13 files
702 links
БЕЗ ЧУЖОЙ РЕКЛАМЫ Авторский канал Александра Дьяконова (dyakonov.org)
машинное (machine learning) и
глубокое обучение (deep learning)
анализ данных (data mining)
наука о данных (data science)
ИИ (artificial intelligence)
математика (math)
и др.
ЕСТЬ ЧАТ;)
加入频道
#книга
Питер Брайан  Медавар «Советы молодому ученому»
Классика - книга о науке, в форме монолога о разных аспектах научной деятельности (где взять задачу, что такое публичность в науке, этика ссылок на первоисточники, какие бывают эксперименты и многое другое). Все вещи довольно простые, но собраны в одном месте и написаны хорошим языком.
#интересно
Довольно любопытный график. Чемпион до-глубокого периода (если измерять во FLOP-сах) – решение задачи на конкурсе Netflix (это к вопросу, что нельзя было просто так взять и выиграть). Чемпион глубокого – GloVe (никогда не подумал бы). А текущего чемпиона попробуем угадать в голосовалке ниже...
Оригинал здесь. Смотреть после голосования;)
#ссылка
Агрегатор блог-постов по языку Julia:
https://www.juliabloggers.com/
#интересно
Появилась тенденция кроме своего резюме на персональный сайт выкладывать ещё и развёрнутое описание научных интересов. Иногда его оформляют в виде статьи:
https://epsilon-lee.github.io/static/Research_Interests_and_Statement_glli2020.pdf
#диссертация
Вот все боятся ликов, а некоторые с их помощью научные степени получают;) А хорошая тема, между прочим!
Tribhuvanesh Orekondy "Understanding and controlling leakage in machine learning"
https://publikationen.sulb.uni-saarland.de/bitstream/20.500.11880/30989/1/dissertation_final.pdf
#полезно
Для МГУшников…
МГУ и Яндекс предлагают возможность завести почтовый ящик в домене @my.msu.ru, доступ к Яндекс.диску объемом 1 Тб без рекламы, Онлайн-редактору документов, Календарю, Мессенджеру, cистеме видеоконференции связи Телемост для ведения семинарских занятий.
https://my.msu.ru
#юмор
Раз сегодня 1 апреля, то надо что-нибудь "весёлое" рассказать...
Я несколько лет подряд в начале обучения магистратуры ММП ВМК МГУ устраивал тест по машинному обучению: где-то порядка 50 вопросов, не очень сложных, на совершенно разные темы ML (чтобы понять, а что поступившие магистры знают). В каждом вопросе надо было выбрать один из 4х ответов. А ещё в каждом вопросе правильным был второй ответ. За 4 года моих экспериментов с тестом никто не нашёл закономерности (т.е. не "обучился"), хотя все в среднем хорошо отвечали (почти все больше 50% вопросов правильно, а четверть около 80% правильно).

А ещё я когда-то делал тесты с вопросами, на которые не было правильного ответа... но это уже другая история;)
На всякий случай, все описанные здесь тесты несли исследовательский характер и не влияли на оценки студентов.
#юмор
Ну и тогда ещё одна история (вообще-то у меня их довольно много). Как-то я принимал так экзамен:
- кто хочет удовл. автоматом?
(часть людей получает тройки и уходит)
- кто хочет хор. автоматом?
(часть людей получает четвёрки и уходит, но уже чувствуется напряжённость, кто-то хочет получить "хор", но его останавливают друзья со словами "Ты что, не понимаешь, просто надо перетерпеть?")

А вот что было дальше я пока не скажу:)
#юмор
Ну и последняя история, давайте, уже из области бизнеса.
Как-то, уже очень давно, я работал в компании N. Наш CEO ждал на переговоры представителя другой компании, мы располагались на верхних этажах пафосного бизнес-центра, в назначенный час помощница руководителя спустилась и проводила представителя другой компании в переговорку, в которой его уже ждал наш CEO, они поздоровались и начали переговоры. Стенки были прозрачные и всё было видно: они шутили, о чём-то спорили и т.п. Я, проходя мимо переговорки, спросил "а с кем это беседуют?" Мне ответили, я удивился, т.к. вроде представлял, как выглядит переговорщик с их стороны - этот был не похож. Через полчаса оживлённая беседа вдруг резко завершилась, CEO и представитель спешно попрощались...

Что произошло? Оказалось, наша помощница руководителя привела не того. Она спустилась, спросила "кто на встречу?" И повела в переговорку. А он пришёл на другую встречу! Но я хохотал весь день... они беседовали полчаса! Успели рассказать о своих компаниях, обсудить условия будущего договора и т.п. В какой момент они что-то заподозрили, мне так и не сказали;)
#новости
Поскольку мой первоначальный комментарий к этой ссылке не все посчитали корректным, оставляю только ссылку:
https://www.kommersant.ru/doc/5292131
#юмор
На выходные - лучшее объяснение, что такое полный граф
(автора не знаю)
#новости
Есть ещё крупные мероприятия, на которые допущены россияне, например Европейская олимпиада по математике среди девушек. Кстати, если удивлены - то да, для девушек есть отдельные олимпиады по математике, хотя они, конечно, могут быть и участницами основных. Выиграли наши школьницы (из Питера и Казани): https://edu.gov.ru/press/4981/chetyre-zolotye-medali-poluchili-rossiyskie-shkolnicy-na-11-y-evropeyskoy-olimpiade-po-matematike-dlya-devushek/
Впереди международная олимпиада (интересно, допустят ли туда участников из России).
#новости
Начали выкладывать какие-то (я сам пока не смотрел) городские данные. Сам факт, что подобные данные выкладываются в общий доступ радует. Мэрии некоторых американских и европейских городов уже давно выкладывают, например, данные, какие преступления были совершены, когда и где. У нас пока такое невозможно представить.
https://ai.mos.ru
#видео
В прошлом году самым популярным видео на моём ютуб-канале неожиданно стал разбор данных одного Kaggle-соревнования. Возможно, это действительно интересно общественности. Поэтому я сделал разбор задачи с ещё одного соревнования, которую мы решали вместе со студентами осенью (руки не доходили, а тут я решил эту же задачу дать для студентов, которым читаю ML, заодно и записал лекцию).
Итак, никаких современных трансформеров и мультимодальности, тупо смотрим табличные данные и придумываем признаки на протяжении 1 часа:
https://youtu.be/LDSMqYSE1vI
#полезно
Вчера просматривал DS-чаты, которые обычно не особо мониторю, ответил на несколько вопросов из серии "а почему у меня этот код не работает". Сегодня утром в личку стучится рекрутер с предложением о работе (судя по общим подпискам, как раз из-за вчерашней активности - до этого никогда не стучались). Вакансия на мидла в крупной компании, вилку не называют. Но в целом, мне идея понравилась - отлавливать кандидатов в профильных чатах (не тех, кто все вопросы к политике сводят или про будущее ИИ разглагольствуют, а тех, кто что-то дельное пишет, хоть в телеграме и нет кармы). Интересно только, насколько это действенный способ?
#длясправки
В машинном обучении (и много где ещё) любят аббревиатуры, интересно, когда такие аббревиатуры одновременно обозначают два разных понятия. Есть избитые примеры типа NLP (Natural Language Processing, NonLinear Programming, Neuro-Linguistic Programming), но всё таки это расшифровки из совершенно разных областей (и в ML путаницы нет), а вот несколько "внутриобластных" примеров.

SOTA – Вы, конечно, сразу подумали про State of the Art (тогда правильнее писать SotA), но есть ещё такой алгоритм Self Organizing Tree Algorithm. И самое забавное, что если Вы хотите погуглить, какой сейчас самый лучший алгоритм кластеризации, то на запрос "SOTA clustering" в гугле будет выдаваться именно этот. Неплохой маркетинговый ход;)

SGD – на ум приходит Stochastic gradient descent, но некоторые NLP-шники скажут, что есть такой набор данных Schema-Guided Dialogue dataset (SGD), в статьях и блог-постах гугла на него ссылаются как на SGD.

LDA – это классика: Latent Dirichlet Allocation и Linear Discriminant Analysis, хотя, кто в современном мире вспоминает термин "линейный дискриминантный анализ"?

Какие Вы ещё знаете "накладки" в аббревиатурах?
#новости
Результаты проверок счётной палатой МГУ и СПбГУ. Много довольно интересных цифр, причём не только по этим вузам (там есть НИОКРы ведущих вузов, в доп. документах рейтинги российских суперкомпьютеров и т.п. )
https://ach.gov.ru/checks/razvitiye-mgu-i-spbgu