Почти год назад я ездил на Шри-Ланку 🇱🇰, удалось взять тур по путёвке. Спорные ожидания из-за еды, но понравилось:
• Океан. Классные волны и, наверное, самое доступное место для сёрфинга - личный инструктур стоит 1000 рублей в час. Правда, я отбил себе ребро, которое заживало месяц, хах.
• Чай. Полюбил цейлонский чай - совсем не горчит.
• Еда. Местная кухня действительно спорная (вайбы Индии), но я попробовал акулу, которая на вкус как обычная белая рыба. Зато фрукты очень неплохие, особенно дуриан - ням <3.
• Сафари по реке - моё почтение. Там были и крокодилы на чиле. Минут пять я вглядывался в хамелеона, сидевшего в кустах в метре от меня (вокруг всё зелёное, и он тоже зелёный). Лангуры, хоть и дикие, оказались очень дружелюбными и почти ручными, в отличие от многих других азиатских обезьян. Запустили черепашек в океан
• Океан. Классные волны и, наверное, самое доступное место для сёрфинга - личный инструктур стоит 1000 рублей в час. Правда, я отбил себе ребро, которое заживало месяц, хах.
• Чай. Полюбил цейлонский чай - совсем не горчит.
• Еда. Местная кухня действительно спорная (вайбы Индии), но я попробовал акулу, которая на вкус как обычная белая рыба. Зато фрукты очень неплохие, особенно дуриан - ням <3.
• Сафари по реке - моё почтение. Там были и крокодилы на чиле. Минут пять я вглядывался в хамелеона, сидевшего в кустах в метре от меня (вокруг всё зелёное, и он тоже зелёный). Лангуры, хоть и дикие, оказались очень дружелюбными и почти ручными, в отличие от многих других азиатских обезьян. Запустили черепашек в океан
❤13👍5💘3👌1
The State of LLM Reasoning Model Inference
Себастьян Рашка, известный по своей книге о классическом ML, теперь пишет и про LLM. Сейчас (еще в марте) выпустил обзор методов улучшения инференса LLM за счет дополнительного компьюта. Идея - заставить модель дольше размышлять для получения более качественного ответа.
Возможно чем слабее базовая модель, тем заметнее эффект от этих техник. Для сильных LLM прирост качества оказывается ниже (см. картинку). Но это надо не просто дольше думать, но и правильно
Что кажется можно легко проверить и использовать без архитектурного изменения модели:
Wait Injection. Перед генерацией финального ответа просим LLM вывести слово Wait. Это дает модели паузу на переосмысление контекста. На математических задачах точность может вырасти до +50%. Использовать можно добавив соответствующую инструкцию в промпт или сделать повторный запрос с предыдущим контекстом и мыслями модели, добавив Wait
Переход от Chain-of-Thought (CoT) к Chain of Draft (CoD). Базированный CoT часто генерирует избыточные рассуждения, сжигая токены. Новый подход (CoD) предлагает модели размышлять в формате коротких тезисов (можно достичь за счет промтинга). Результат: лучше метрики и дешевле запросы
Себастьян Рашка, известный по своей книге о классическом ML, теперь пишет и про LLM. Сейчас (еще в марте) выпустил обзор методов улучшения инференса LLM за счет дополнительного компьюта. Идея - заставить модель дольше размышлять для получения более качественного ответа.
Возможно чем слабее базовая модель, тем заметнее эффект от этих техник. Для сильных LLM прирост качества оказывается ниже (см. картинку). Но это надо не просто дольше думать, но и правильно
Что кажется можно легко проверить и использовать без архитектурного изменения модели:
Wait Injection. Перед генерацией финального ответа просим LLM вывести слово Wait. Это дает модели паузу на переосмысление контекста. На математических задачах точность может вырасти до +50%. Использовать можно добавив соответствующую инструкцию в промпт или сделать повторный запрос с предыдущим контекстом и мыслями модели, добавив Wait
Переход от Chain-of-Thought (CoT) к Chain of Draft (CoD). Базированный CoT часто генерирует избыточные рассуждения, сжигая токены. Новый подход (CoD) предлагает модели размышлять в формате коротких тезисов (можно достичь за счет промтинга). Результат: лучше метрики и дешевле запросы
👍10🔥5🤯3🤔1
TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling
Новая Sota (ли ?) от Яндекса в табличных задачах, TabM, — это MLP-архитектура, которая имитирует ансамбль из k (в статье 32) сетей. Она делает несколько предсказаний на один объект, а подмодели обучаются одновременно и разделяют большую часть весов почти как в BatchEnsemble. Это позволило отказаться от attention, ускорить обучение и улучшить метрики за счет ассемблирования. В статье утверждают что метрики лучше чем у бустингов, но кажется метрики стат. значимо не отличаются. Забавно что excel сильнее базового MLP из чего и состоит текущее решение
Навайбкодил сравнение метрик базового LightGBM и этого решения. Это было, конечно, намного легче, чем с TabR (прошлая Sota от Яндекса), код которого в виде библиотеки не выкладывали, но всё равно из коробки модель не обучалась. Пришлось взять параметры из статьи; на чуть больших датасетах это всё падает по памяти, ошибки cuda☠️ , еще и train loop нужен свой. Так что получил результаты на двух датасетах
Как итог, LightGBM оказался существенно лучше на 2-м датасете, но на 1-м — почти паритет. Но какой же TabM медленный, на CPU время обучения отличается х1000раз и это на 100 эпохах, в статье предлают обучать еще больше! И всё же результат достойный, но статью имеет смысл перепроверить с точки зрения метрик
Новая Sota (ли ?) от Яндекса в табличных задачах, TabM, — это MLP-архитектура, которая имитирует ансамбль из k (в статье 32) сетей. Она делает несколько предсказаний на один объект, а подмодели обучаются одновременно и разделяют большую часть весов почти как в BatchEnsemble. Это позволило отказаться от attention, ускорить обучение и улучшить метрики за счет ассемблирования. В статье утверждают что метрики лучше чем у бустингов, но кажется метрики стат. значимо не отличаются. Забавно что excel сильнее базового MLP из чего и состоит текущее решение
Навайбкодил сравнение метрик базового LightGBM и этого решения. Это было, конечно, намного легче, чем с TabR (прошлая Sota от Яндекса), код которого в виде библиотеки не выкладывали, но всё равно из коробки модель не обучалась. Пришлось взять параметры из статьи; на чуть больших датасетах это всё падает по памяти, ошибки cuda
Как итог, LightGBM оказался существенно лучше на 2-м датасете, но на 1-м — почти паритет. Но какой же TabM медленный, на CPU время обучения отличается х1000раз и это на 100 эпохах, в статье предлают обучать еще больше! И всё же результат достойный, но статью имеет смысл перепроверить с точки зрения метрик
Average LGB Test AUC: 0.7659
Average TabM Test AUC: 0.7421
Average LGB Time: 0.23s
Average TabM Time (CPU amd 7700): 234.55s
Average TabM Time (gpu T4): 15.68s
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥6🤔2👌2❤1
UPD: Когда под анонсом в канале Яндекса я поделился своими изысканиями, мне прислали ссылку на открытый бенчмарк TabArena (см 2я картинка). Выводы там в целом аналогичны моим: метрики LightGBM статистически значимо не отличаются от TabM.
Но, к удивлению, есть другой лидер — RealMLP (Better by Default: Strong Pre-Tuned MLPs and Boosted Trees on Tabular Data). Как видно из названия, это тоже MLP, но со всеми известными улучшениями: дефолтные параметры модели предварительно подобрали на открытых датасетах, квантильное преобразование признаков, smooth clipping для борьбы с выбросами и scaling layer (перемножение вектора признаков с диагональной матрицей весов) для первичного отбора признаков. И всё это ещё лучше работает в ансамбле с бустингом, с использованием SELU/Mish в качестве функций активации и так далее.
В итоге я обновил свой предыдущий подход (см 1ю табличку), и действительно, результат как будто лучше, чем у бустинга. RealMLP - подтверждаю, работает быстро, сразу из коробки, гиперпараметры тюнить не надо. Можно тестировать на рабочих задачах.
Но, к удивлению, есть другой лидер — RealMLP (Better by Default: Strong Pre-Tuned MLPs and Boosted Trees on Tabular Data). Как видно из названия, это тоже MLP, но со всеми известными улучшениями: дефолтные параметры модели предварительно подобрали на открытых датасетах, квантильное преобразование признаков, smooth clipping для борьбы с выбросами и scaling layer (перемножение вектора признаков с диагональной матрицей весов) для первичного отбора признаков. И всё это ещё лучше работает в ансамбле с бустингом, с использованием SELU/Mish в качестве функций активации и так далее.
В итоге я обновил свой предыдущий подход (см 1ю табличку), и действительно, результат как будто лучше, чем у бустинга. RealMLP - подтверждаю, работает быстро, сразу из коробки, гиперпараметры тюнить не надо. Можно тестировать на рабочих задачах.
🔥12❤4🤝4🙏1
Интересный обзор архитектур open-source LLM за 2025г The Big LLM Architecture Comparison
Забавно, как каждая из моделей по-своему комбинирует уже известные подходы, придуманные еще в прошлых года, при этом получая разнонаправленное влияние на метрики (Qwen3 почти не отличается по GPT-OSS. Тут детальнее про GPT-OSS). Например:
• Переход от ванильного Multi-Head Attention к Grouped-Query Attention (GQA), который появился ещё в 2023 году
• Attention Bias, который не использовали со времён GPT-2 и Attention Sinks обучаемый параметр для каждого блока внимания, которые применили в gpt-oss, хотя придумали его ещё в 2023 году
• NoPE (No Positional Encoding) — интересная идея, но её пока применили только в одной модели из обзора
• MoE (mixture of experts) - тоже известная больше года история
За деталями рекомендую к статье. Интересно на каких данных и как именно обучали модели. Но этой информацией зачастую делятся очень верхнеуровнево
Забавно, как каждая из моделей по-своему комбинирует уже известные подходы, придуманные еще в прошлых года, при этом получая разнонаправленное влияние на метрики (Qwen3 почти не отличается по GPT-OSS. Тут детальнее про GPT-OSS). Например:
• Переход от ванильного Multi-Head Attention к Grouped-Query Attention (GQA), который появился ещё в 2023 году
• Attention Bias, который не использовали со времён GPT-2 и Attention Sinks обучаемый параметр для каждого блока внимания, которые применили в gpt-oss, хотя придумали его ещё в 2023 году
• NoPE (No Positional Encoding) — интересная идея, но её пока применили только в одной модели из обзора
• MoE (mixture of experts) - тоже известная больше года история
За деталями рекомендую к статье. Интересно на каких данных и как именно обучали модели. Но этой информацией зачастую делятся очень верхнеуровнево
🔥8👍5❤3
Неплохой курс от Яндекса как делать презентации
Быстрый и емкий курс, полезен тем, кто в последний раз делал презентацию в университете и не только. В нём есть хорошие и показательные примеры того, какой тип графиков выбрать для тех или иных данных (спойлер: диаграммы Ганта, Санки и даже Венна не понадобятся, это вам не эксель и даже не…). Еще рассматривается выбор контрастности и лёгкость восприятия слайдов в зависимости от межстрочного интервала и тд и тд
P.S. Это как на той конференции, когда мне дезигнеры перерисовывали слайд, вроде и не изменилось, но читаться стало легче
Быстрый и емкий курс, полезен тем, кто в последний раз делал презентацию в университете и не только. В нём есть хорошие и показательные примеры того, какой тип графиков выбрать для тех или иных данных (спойлер: диаграммы Ганта, Санки и даже Венна не понадобятся, это вам не эксель и даже не…). Еще рассматривается выбор контрастности и лёгкость восприятия слайдов в зависимости от межстрочного интервала и тд и тд
P.S. Это как на той конференции, когда мне дезигнеры перерисовывали слайд, вроде и не изменилось, но читаться стало легче
👍11🔥3🙏2❤1