AI.Insaf
1.09K subscribers
122 photos
1 file
33 links
Личный канал Инсафа Ашрапова
Исполнительный директор по исследованию данных в банке (aka Lead DS) — @insafq
Здесь про AI, менеджмент, личные истории и многое другое
加入频道
Прочитал книжку "Простые правила" (авторы Дональд Сулл, Кэтлин Эйзенхардт). Там про то, что сложным правилам непросто следовать, они могут быть ошибочными – как итог, простые оказываются продуктивнее и точнее. Постулируя это, идет большой разбор множества сфер, где это действительно так (от медицины: например, для борьбы с бессонницей — ложиться спать в одно и то же время, до программы развития стартапов в Чили, где действовало правило исключения — неделовые поездки по стране). Звучит, как будто гуманитарии открыли правило "не переобучись". А так, конечно, рекомендую книжку.
👍11😁74🗿1
Таки прочитал лучшие решения с соревнований Kaggle за 2023 год (the Best Solution Write-up Authors 🏆), все еще актуально. За статьи в сумме раздали 100 тысяч долларов.

1. Три статьи от одного автора (Chris Deotte) посвящены задачам про временные ряды:

- В одной задаче нужно было предсказать количество микробизнесов на 100 человек в каждом штате на следующие месяцы. Как всегда, важна хорошая валидация: GroupKFold по регионам + cross time series validation для увеличения объема данных и получения более робастных метрик. Так как метрика SMAPE, то и loss обычный MSE, и нужно предсказывать не саму плотность, а только прирост. Таким образом, все данные по штатам становятся ближе друг к другу. Необычно, что лучшая модель получилась с сеткой с GRU слоями. Автор признает, что такой же результат получился бы при использовании магического коэффициента 1.0045 в качестве поправочного коэффициента для соотношения в динамике прошлых месяцев. И, конечно же, LB public probing (для тех, кто знает; кто не знает – ни в коем случае не использовать).

- В следующем соревновании требовалось прогнозировать прогрессирование болезни Паркинсона. Мало кейсов (248 пациентов), много лишних и шумных показателей (1000 показателей). 99% успеха – признак, как часто человек приходит в больницу. Наверное, не для этого запускали соревнование. И понятно, что тут зашли наиболее простые модели, у автора – SVR (Support Vector Regression).

- В 3м соревновании автор перестарался с подходом из пункта а и улетел с 1-го места в предварительном этапе на 967-е. Во всем виноват как раз LB public probing (буквально переобучился). А надо было всего лишь прочитать книжку "Простые правила" из прошлого поста.

2. Распознавание предложений языков жестов: решение через адаптированный Squeezeformer, который изначально был для распознавания речи. С помощью MediaPipe ключевые точки (landmarks) трансформируются в аналогичный входной спектр. Забавно, что dropout здесь называется FingerDropout, то есть буквально зануляются пальцы. А вот в задаче распознавания букв языков жестов – обычный 1D CNN эффективнее трансформеров (by Hoyeol Sohn).

3. Задача - предсказание успеваемости студентов по информации, как студент проходит развивающие игры. Слышал, что в какой-то компании так определяют производительность сотрудников по 5-минутной игре в начале рабочего дня (aka фильм "Особое мнение", только про корпоративную эффективность). Решение – объединение бустингов, лики и использование открытого API игры, чтобы сгенерировать больше данных, погружение в данные, чтобы создать осмысленные признаки. Интересно, что под задачу удалось адаптировать подход, вдохновленный WaveNet, с использованием embedding слоев и объединив с TimeEmbedding + avg_pooling, создать решение с сетками (причем там двухшаговое обучение с претрейном для backbona), и, как они говорят, итерационное обучение ускорил pipeline обучения.

4. Две статьи про физические задачи: детекция гравитационных волн (топ-решение G2Net) и нейтрино (лучшее решение gnn, т.е. графовые сетки).

5. Задача Маммографии: YOLOX для правильного кропа изображения + EfficientNet и ConvNeXt для классификации. Примечательно, что использование label smoothing работало все-таки лучше, чем soft positive label trick (always been).

+там еще про Image Matching Challenge и распознавание пении птиц по пению
👍142🔥2🤓2😁1🦄1
AI.Insaf
GroupKFold по регионам + cross time series validation
Почему AutoML не стал той серебряной пулей 😔

Чтобы построить [хорошую модель], нужно всё равно полностью разобраться в решаемой задаче и, очевидно, правильно поделить данные обучающие и тестовые выборки. Например, если в данных есть группы и применить для валидации обычный KFold, то будет переобучение и как итог слабая модель. Справедливости ради, такой параметр (group) есть в LAMA, но если не знать, зачем он нужен в конкретном случае, AutoML не сделает правильный выбор за тебя, а в документации это не всегда объяснено достаточно очевидно. Так что пока кожаные мешки нужны 🤝
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9😁4🤔3
Проспонсировал AI-гонку, купив годовую подписку Perplexity. 300 запросов в день - удобно, может быть и o4-mini завезут 🍷
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8😁4🤔1
До следующей поездки нужно написать про прошлую ✈️. Еще в конце февраля мы ездили во Вьетнам (Ханой -> Фукуок), а затем в Малайзию.

Все началось с пересадки в Чэнду (Китай) – это родина панд, и нам удалось попасть в один из главных их заповедников. Кухня там тоже интересная, особенно сычуанский перец, который не столько острый, сколько дает интересное чувство онемения. А панды же там просто сидят и едят бамбук

Ханой неожиданно понравился больше всего в поездке. Очень классная кухня (не только фо бо, но и бун ча – суп с поджаренным мясом, яичный кофе, свежие роллы, которые сам заворачиваешь). Было прикольно сходить в ресторан из гида Мишлен, где суп с пивом стоил 250 рублей и где за соседним столиком сидел сам Обама. Из города удалось съездить в бухту Халонг (более 1000 островов) и в Ниньбинь, где тоже много гор

Фукуок – это уже перелет с самого севера на самый юг Вьетнама. Там много активностей: аквапарк, сафари-парк, огромная канатная дорога и т.д. По ощущениям похоже на Пхукет.

Куала-Лумпур (Малайзия) – жарко и влажно, зато какие классные джунгли в черте города. Старше лесов Амазонии (возрастом 150 млн лет), и город позиционирует себя как единственный в мире с такими древними джунглями в своих границах. Он показался очень похожим на Сингапур, но намного более живым. Башни Петронас вживую – уважение
🔥115🙏2
12😁3🔥2🙏2
24🔥10🙏2
Career Development: What It Really Means to be a Manager, Director, or VP

Статья хоть и старая, но подобных материалов не так много. Часто пишут про отличия джунов, мидлов и сеньоров. Например, тут (пост в тг) или тут (доклад на youtube), где через аналогию объясняется, как каждый уровень успешно копает канал; отдельное спасибо, что не гребет. И этому докладу больше 6 лет, а я там был лично

В статье же утверждается следующее:

Managers доводят задачи до результата и не требуют избыточного контроля. Однако разработка глобального плана обычно не входит в их обязанности

Directors как и менеджеры, доводят дело до конца, но уже мыслят шире находя обходные пути при необходимости

• VPs цель - разработка глобального плана. Их задача - понять бизнес-ситуацию компании, составить и согласовать план, а затем придти с ним к успеху

Основная идея статьи: VP несут полную ответственность за результаты. В отличие от директоров, они не могут оправдать неудачу тем, что "выполняли согласованный план". Это стимулирует VP к созданию плана, в который он действительно верит

PS. Забавно, что все три уровня (от manager до VP) звучат как классические разбивки на джунов, мидлов и т.д.
👍133😁1
автор статьи конечно тот еще шутник:

It conflates career development and salary negotiation. It encourages a mindset of saying, “what must I do to make L10” when you want to say, “I want a $10K raise.” I can’t tell you the number of times people have asked me for “development” or “leveling” conversations where I get excited and start talking about learning, skills gaps, and such and it’s clear all they wanted to talk about was salary. Disappointing.
😁10👏6🌚2
Сходил сегодня на Датафест в Яндексе, где были только доклады про внутренние продукты. Что послушал:

Спрос Яндекс Лавки: смесь Prophet и бустингов с дальнейшим разделением на продукты, регионы и там, где это улучшало метрики. TimeGPT не используем, так как в Prophet легко добавить выходные дни.
• У очень многих людей (2% или 20%) есть две колонки Алисы, и пришлось научиться понимать, к какой обращаются, и ещё учесть, что может быть несколько пользователей (мультиаккаунтинг). Во второй задаче ожидаемо лучше всего работает, когда человек сам об этом говорит.
• Большой доклад по рекомендациям в Яндекс Лавке. Суть в том, что работает двухбашенный подход с трансформером user-items, косинусные расстояния, которые передаются в бустинги, но дополнительно туда добавляются и сами запросы пользователей, и текущая корзина. И вот они попробовали это всё заменить графовой сеткой (PinSage + TwHIN, где ребра товар-корзина), иииии.... метрики упали. Что не понял, это что при первом запуске бизнес метрики упали, и только когда модель дофитили на результатах 1го запуска - метрики позеленели, это бага или фича? Сейчас же до 20% GMV - за счет рекомендаций
Экран отписки от Плюса – метрика средней выручки с сохранившихся на экране пользователей с вычетом затрат на сохранение. Ранжирование не работает, так как лучше всего сохраняет скидка на подписку, предиктивно с оттоком не начинали, всё на бустингах
• Активно используют VLM для нейро и оффлайн эмбедингов для поиска картинок. Но интересно что нейро пока не научились монетизировать

Если выше это доклады из бизнесовой секции, то еще была 2я техническая, но слишком техническая. Например «Быстрая аппроксимация матрицы Фишера с помощью факторизации Кронекера» 🫡

P.S. Конференция растет, сидр уже давно, а вот кальяны — это что-то новое. И даже был квиз. Доклады можно посмотреть и в записи потом, а так главное там это живое общение
👍18🔥102🙏1
Вчера сходил на Датафест в Avito. Ожидаемо, основной фокус был на LLM и рекомендациях

По докладам:
1. Самый сильный доклад - про post-training LLM и библиотеку torchtune (реализованы SFT, DPO, PPO и т. д. без обёрток Hugging Face), в которую сам докладчик контрибьютит. Берём Llama (вроде бы 7B, batch_size=2) с QLoRA`й - обучение займёт 358 минут с пиком потребления памяти 7 ГБ. Добавим Compile, packing батчей, FlexAttention — и время обучения уменьшится до 36 минут, но какой ценой: потребление памяти вырастет до 40 ГБ (x6),. Можно ещё добавить Context Parallel и улететь в космос с пиками потребления до 70 ГБ.

2. Несколько докладов по продуктовому применению LLM в Avito и Т-Банке (например разметка звонков, чатов на факт сделки и т. д.). Общий подход - максимально очистить выборку и согласовать инструкцию к разметке, добившись консистентности разметки, т. е. чтобы разные люди размечали одинаково. Далее - максимально понятный LLM workflow, так чтобы задача решалась итерационно; если контекст сильно растёт, добавляем RAG. При этом в одном из кейсов Avito для RAG зашла комбинация BM25, LLM, BERT и реранкера из RoBERTa. PS Агентов еще не завезли

3. Дообучение LLM в Avito. Дообучали (DPO) лёгкие 7B модели (Qwen) - получили небольшие приросты метрик, которые нивелируются релизами новых опенсорсных моделей. Ключевой эффект - в дообучении своего токенизатора с фокусом на русский язык (+31% к скорости инференса).

4. Рекомендации на главной Avito: ретривал на трансформерах с позиционными эмбедингами товаров (кликов и просмотров) + ranking на CatBoost. Вся эта история даёт 50% просмотров и 30% кликов по объявлениям. Из интересного - добавление блендера, чтобы в бесконечной ленте были товары из разных категорий

5. Большая дискуссия про важность ML-соревнований. В конце спикеры сошлись на том, что если результат соревнования/хакатона определяется местом на лидерборде, то презентации не стоит учитывать (важен результат, а не то, как он достигнут). Эх, не зря ругают звездолёты кагглеров

6. Инсайды с обсуждений вне докладов - chatgpt любит некоторые буквы заменять на редкие аналоги, которые выглядят так же, чтобы потом можно было бы определить что текст сгенерирован. Плюс наличие нового абзаца с двух пробелов или использование длинного тире - текст сгенерирован, тк такое человек не использует

P.S. На квизе вспомнили про Bimorph - вот так становятся легендой. Пик одс в 2019г и я там был, сейчас нашел статью на хабре, но те обсуждения под 1к сообщение в слаке уже не найти 🫡

P.S2 На фото - вид с веранды офиса, красивое
🔥148👍3