Ещё в конце мая Google запустил в открытое тестирование свой ассистент Jules для кодинга с интеграцией в GitHub (сам создаёт pull request и т. д.).
Попробовал протестировать на своём открытом репозитории: readmemd он переписал неплохо. Не зря у Gemini 2.5 Pro контекст в 1М токенов, это вам не Sonnet, где всего 200к.
Дальше — попытка добавить новый функционал. Первая попытка — провал: задачу он решил не так. Лучше отдельным запросом попросить улучшить промпт, даже через тот же Gemini. На следующей попытке он уже упал, пытаясь поставить все зависимости проекта. Установка torch пока оказалась для него непосильной задачей, но отрадно, что он, получается, пробует запускать и тестировать код.
Так или иначе, написанный им код я протестировал самостоятельно, и он не работал. Дебажить 400+ строк изменений — помянем. Ещё он обильно раскидал по коду пометки о том, что код нужно дорабатывать (например, # TODO: Add test for novelty retry logic (more complex mock for _generate_via_prompt)). Ах да, каждый запрос — это до часа ожидания.
Очень неплохо, но, кажется, Cursor пока лучше.
Попробовал протестировать на своём открытом репозитории: readmemd он переписал неплохо. Не зря у Gemini 2.5 Pro контекст в 1М токенов, это вам не Sonnet, где всего 200к.
Дальше — попытка добавить новый функционал. Первая попытка — провал: задачу он решил не так. Лучше отдельным запросом попросить улучшить промпт, даже через тот же Gemini. На следующей попытке он уже упал, пытаясь поставить все зависимости проекта. Установка torch пока оказалась для него непосильной задачей, но отрадно, что он, получается, пробует запускать и тестировать код.
Так или иначе, написанный им код я протестировал самостоятельно, и он не работал. Дебажить 400+ строк изменений — помянем. Ещё он обильно раскидал по коду пометки о том, что код нужно дорабатывать (например, # TODO: Add test for novelty retry logic (more complex mock for _generate_via_prompt)). Ах да, каждый запрос — это до часа ожидания.
Очень неплохо, но, кажется, Cursor пока лучше.
😁8👍2🙏1
Полистал ежегодный отчет Сбера за 2024 год и увидел проект, в запуске которого участвовал (я про Индивидуальный мониторинг). Приятно 🍷
Весь отчет 486 листов тут
Весь отчет 486 листов тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤6👍6👏2
На Reddit ещё один успешный кейс: чат-бот с 400$ натрейдил иксы. Там, конечно, торги с длинным плечом и, соответственно, рискованные операции на известной платформе Robinhood. А так, конечно, на растущем рынке всё будет работать.
Забавно, что если скормить исторические цены, то там не rocket science, а вызов питона и далее обычно линейная регрессия (как в excel`e протянуть значения), или экспоненциальное сглаживание, как здесь:
PS На акциях nvidia ошибка 40% за 3 месяца by chatgpt 4.1
Забавно, что если скормить исторические цены, то там не rocket science, а вызов питона и далее обычно линейная регрессия (как в excel`e протянуть значения), или экспоненциальное сглаживание, как здесь:
data = pd.read_csv(…)
...
model = ExponentialSmoothing(monthly_data, trend='add', seasonal=None, initialization_method='estimated')
fitted_model = model.fit()
fitted_model.forecast(3)
PS На акциях nvidia ошибка 40% за 3 месяца by chatgpt 4.1
Reddit
From the ChatGPT community on Reddit
Explore this post and more from the ChatGPT community
❤6😁4👍3
Какое-то время играю в большой теннис 🎾 — очень годный вид спорта, рекомендую. Особенно если пережить первые полгода. Пишите, кто хочет сыграть на севере Москвы 😉
Так вот, наткнулся на интересное приложение Swing Vision как раз для тенниса, там даже в инвесторах теннисисты ex ATP No1. Снимая, как ты играешь, можешь получить сквозную статистику своей игры: сколько ударов, откуда, точность, скорость. Интересно, что инференс у них локально на телефоне, причём как будто без ошибок, самый длинный розыгрыш нашёл правильно. Даже есть функция challenge (aka Hawk-Eye), чтобы определить, был ли аут. Рекомендую хотя бы побаловаться. Для использования нужен трипод чтобы снимать корт
Так вот, наткнулся на интересное приложение Swing Vision как раз для тенниса, там даже в инвесторах теннисисты ex ATP No1. Снимая, как ты играешь, можешь получить сквозную статистику своей игры: сколько ударов, откуда, точность, скорость. Интересно, что инференс у них локально на телефоне, причём как будто без ошибок, самый длинный розыгрыш нашёл правильно. Даже есть функция challenge (aka Hawk-Eye), чтобы определить, был ли аут. Рекомендую хотя бы побаловаться. Для использования нужен трипод чтобы снимать корт
🔥16👍6❤3
Новый обзор трендов OCR и Vision-LLM за Q1/Q2 2025 от Игоря Галицкого (тут linkedin)
Ключевые тезисы:
Новая SOTA: С Gemini 2.5 планка качества для OCR с Vision-LLM значительно поднялась. Модель лидирует на ключевых бенчмарках, включая новый IDP leaderboard. Gemini 2.5 лучше qwen 2.5 vl / gpt-4o в среднем на 15-20% по бенчмаркам
Эффективные small VLM: Появились компактные мультитаск-модели (MonkeyOCR, Dolphin), которые показывают SOTA-результаты при минимальных вычислительных ресурсах, используя подходы из классического DL/CV.
Распознавание текста vs. парсинг диаграмм (сhart Captioning): Одно дело текст распознавать, и котиков описывать, но вот отвечать на вопросы по графикам пока кажется не решенной задачей. Что и показал и новый бенчмарк ChartQA Pro, даже топовые VLM далеки от человеческого уровня (85%) в задачах анализа графиков (модельки уже старые но не думаю что сильно изменилось): Claude Sonnet 3.5: ≈ 56% и GPT-4o (с CoT): ≈ 42%. Более того в одном из своих pet project`в c курса, все эти rag пайплайны у менч по pdf файлам с ocr еще и жутко медленно работали (не пользуйтесь unstructured), и получались похожие метрики. Исследователи обратите внимание😔
Причина — моделям сложно одновременно выполнять две задачи: точное визуальное восприятие (perception) и логический анализ данных (reasoning), особенно в сложных случаях с мульти-чартами и легендами
🤔 Почему это важно?
Несмотря на достойный прогресс универсальных VLM, для enterprise-задач, где важна точность координат (например, PII-маскирование, live-перевод) или работа с изображениями низкого качества (low DPI), специализированные модели и pipeline-решения по-прежнему остаются лучшим выбором
Ключевые тезисы:
Новая SOTA: С Gemini 2.5 планка качества для OCR с Vision-LLM значительно поднялась. Модель лидирует на ключевых бенчмарках, включая новый IDP leaderboard. Gemini 2.5 лучше qwen 2.5 vl / gpt-4o в среднем на 15-20% по бенчмаркам
Эффективные small VLM: Появились компактные мультитаск-модели (MonkeyOCR, Dolphin), которые показывают SOTA-результаты при минимальных вычислительных ресурсах, используя подходы из классического DL/CV.
Распознавание текста vs. парсинг диаграмм (сhart Captioning): Одно дело текст распознавать, и котиков описывать, но вот отвечать на вопросы по графикам пока кажется не решенной задачей. Что и показал и новый бенчмарк ChartQA Pro, даже топовые VLM далеки от человеческого уровня (85%) в задачах анализа графиков (модельки уже старые но не думаю что сильно изменилось): Claude Sonnet 3.5: ≈ 56% и GPT-4o (с CoT): ≈ 42%. Более того в одном из своих pet project`в c курса, все эти rag пайплайны у менч по pdf файлам с ocr еще и жутко медленно работали (не пользуйтесь unstructured), и получались похожие метрики. Исследователи обратите внимание
Причина — моделям сложно одновременно выполнять две задачи: точное визуальное восприятие (perception) и логический анализ данных (reasoning), особенно в сложных случаях с мульти-чартами и легендами
🤔 Почему это важно?
Несмотря на достойный прогресс универсальных VLM, для enterprise-задач, где важна точность координат (например, PII-маскирование, live-перевод) или работа с изображениями низкого качества (low DPI), специализированные модели и pipeline-решения по-прежнему остаются лучшим выбором
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3👎1🤔1
Почти год назад я ездил на Шри-Ланку 🇱🇰, удалось взять тур по путёвке. Спорные ожидания из-за еды, но понравилось:
• Океан. Классные волны и, наверное, самое доступное место для сёрфинга - личный инструктур стоит 1000 рублей в час. Правда, я отбил себе ребро, которое заживало месяц, хах.
• Чай. Полюбил цейлонский чай - совсем не горчит.
• Еда. Местная кухня действительно спорная (вайбы Индии), но я попробовал акулу, которая на вкус как обычная белая рыба. Зато фрукты очень неплохие, особенно дуриан - ням <3.
• Сафари по реке - моё почтение. Там были и крокодилы на чиле. Минут пять я вглядывался в хамелеона, сидевшего в кустах в метре от меня (вокруг всё зелёное, и он тоже зелёный). Лангуры, хоть и дикие, оказались очень дружелюбными и почти ручными, в отличие от многих других азиатских обезьян. Запустили черепашек в океан
• Океан. Классные волны и, наверное, самое доступное место для сёрфинга - личный инструктур стоит 1000 рублей в час. Правда, я отбил себе ребро, которое заживало месяц, хах.
• Чай. Полюбил цейлонский чай - совсем не горчит.
• Еда. Местная кухня действительно спорная (вайбы Индии), но я попробовал акулу, которая на вкус как обычная белая рыба. Зато фрукты очень неплохие, особенно дуриан - ням <3.
• Сафари по реке - моё почтение. Там были и крокодилы на чиле. Минут пять я вглядывался в хамелеона, сидевшего в кустах в метре от меня (вокруг всё зелёное, и он тоже зелёный). Лангуры, хоть и дикие, оказались очень дружелюбными и почти ручными, в отличие от многих других азиатских обезьян. Запустили черепашек в океан
❤13👍5💘3👌1
The State of LLM Reasoning Model Inference
Себастьян Рашка, известный по своей книге о классическом ML, теперь пишет и про LLM. Сейчас (еще в марте) выпустил обзор методов улучшения инференса LLM за счет дополнительного компьюта. Идея - заставить модель дольше размышлять для получения более качественного ответа.
Возможно чем слабее базовая модель, тем заметнее эффект от этих техник. Для сильных LLM прирост качества оказывается ниже (см. картинку). Но это надо не просто дольше думать, но и правильно
Что кажется можно легко проверить и использовать без архитектурного изменения модели:
Wait Injection. Перед генерацией финального ответа просим LLM вывести слово Wait. Это дает модели паузу на переосмысление контекста. На математических задачах точность может вырасти до +50%. Использовать можно добавив соответствующую инструкцию в промпт или сделать повторный запрос с предыдущим контекстом и мыслями модели, добавив Wait
Переход от Chain-of-Thought (CoT) к Chain of Draft (CoD). Базированный CoT часто генерирует избыточные рассуждения, сжигая токены. Новый подход (CoD) предлагает модели размышлять в формате коротких тезисов (можно достичь за счет промтинга). Результат: лучше метрики и дешевле запросы
Себастьян Рашка, известный по своей книге о классическом ML, теперь пишет и про LLM. Сейчас (еще в марте) выпустил обзор методов улучшения инференса LLM за счет дополнительного компьюта. Идея - заставить модель дольше размышлять для получения более качественного ответа.
Возможно чем слабее базовая модель, тем заметнее эффект от этих техник. Для сильных LLM прирост качества оказывается ниже (см. картинку). Но это надо не просто дольше думать, но и правильно
Что кажется можно легко проверить и использовать без архитектурного изменения модели:
Wait Injection. Перед генерацией финального ответа просим LLM вывести слово Wait. Это дает модели паузу на переосмысление контекста. На математических задачах точность может вырасти до +50%. Использовать можно добавив соответствующую инструкцию в промпт или сделать повторный запрос с предыдущим контекстом и мыслями модели, добавив Wait
Переход от Chain-of-Thought (CoT) к Chain of Draft (CoD). Базированный CoT часто генерирует избыточные рассуждения, сжигая токены. Новый подход (CoD) предлагает модели размышлять в формате коротких тезисов (можно достичь за счет промтинга). Результат: лучше метрики и дешевле запросы
👍10🔥5🤯3🤔1
TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling
Новая Sota (ли ?) от Яндекса в табличных задачах, TabM, — это MLP-архитектура, которая имитирует ансамбль из k (в статье 32) сетей. Она делает несколько предсказаний на один объект, а подмодели обучаются одновременно и разделяют большую часть весов почти как в BatchEnsemble. Это позволило отказаться от attention, ускорить обучение и улучшить метрики за счет ассемблирования. В статье утверждают что метрики лучше чем у бустингов, но кажется метрики стат. значимо не отличаются. Забавно что excel сильнее базового MLP из чего и состоит текущее решение
Навайбкодил сравнение метрик базового LightGBM и этого решения. Это было, конечно, намного легче, чем с TabR (прошлая Sota от Яндекса), код которого в виде библиотеки не выкладывали, но всё равно из коробки модель не обучалась. Пришлось взять параметры из статьи; на чуть больших датасетах это всё падает по памяти, ошибки cuda☠️ , еще и train loop нужен свой. Так что получил результаты на двух датасетах
Как итог, LightGBM оказался существенно лучше на 2-м датасете, но на 1-м — почти паритет. Но какой же TabM медленный, на CPU время обучения отличается х1000раз и это на 100 эпохах, в статье предлают обучать еще больше! И всё же результат достойный, но статью имеет смысл перепроверить с точки зрения метрик
Новая Sota (ли ?) от Яндекса в табличных задачах, TabM, — это MLP-архитектура, которая имитирует ансамбль из k (в статье 32) сетей. Она делает несколько предсказаний на один объект, а подмодели обучаются одновременно и разделяют большую часть весов почти как в BatchEnsemble. Это позволило отказаться от attention, ускорить обучение и улучшить метрики за счет ассемблирования. В статье утверждают что метрики лучше чем у бустингов, но кажется метрики стат. значимо не отличаются. Забавно что excel сильнее базового MLP из чего и состоит текущее решение
Навайбкодил сравнение метрик базового LightGBM и этого решения. Это было, конечно, намного легче, чем с TabR (прошлая Sota от Яндекса), код которого в виде библиотеки не выкладывали, но всё равно из коробки модель не обучалась. Пришлось взять параметры из статьи; на чуть больших датасетах это всё падает по памяти, ошибки cuda
Как итог, LightGBM оказался существенно лучше на 2-м датасете, но на 1-м — почти паритет. Но какой же TabM медленный, на CPU время обучения отличается х1000раз и это на 100 эпохах, в статье предлают обучать еще больше! И всё же результат достойный, но статью имеет смысл перепроверить с точки зрения метрик
Average LGB Test AUC: 0.7659
Average TabM Test AUC: 0.7421
Average LGB Time: 0.23s
Average TabM Time (CPU amd 7700): 234.55s
Average TabM Time (gpu T4): 15.68s
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥6🤔2👌2❤1
UPD: Когда под анонсом в канале Яндекса я поделился своими изысканиями, мне прислали ссылку на открытый бенчмарк TabArena (см 2я картинка). Выводы там в целом аналогичны моим: метрики LightGBM статистически значимо не отличаются от TabM.
Но, к удивлению, есть другой лидер — RealMLP (Better by Default: Strong Pre-Tuned MLPs and Boosted Trees on Tabular Data). Как видно из названия, это тоже MLP, но со всеми известными улучшениями: дефолтные параметры модели предварительно подобрали на открытых датасетах, квантильное преобразование признаков, smooth clipping для борьбы с выбросами и scaling layer (перемножение вектора признаков с диагональной матрицей весов) для первичного отбора признаков. И всё это ещё лучше работает в ансамбле с бустингом, с использованием SELU/Mish в качестве функций активации и так далее.
В итоге я обновил свой предыдущий подход (см 1ю табличку), и действительно, результат как будто лучше, чем у бустинга. RealMLP - подтверждаю, работает быстро, сразу из коробки, гиперпараметры тюнить не надо. Можно тестировать на рабочих задачах.
Но, к удивлению, есть другой лидер — RealMLP (Better by Default: Strong Pre-Tuned MLPs and Boosted Trees on Tabular Data). Как видно из названия, это тоже MLP, но со всеми известными улучшениями: дефолтные параметры модели предварительно подобрали на открытых датасетах, квантильное преобразование признаков, smooth clipping для борьбы с выбросами и scaling layer (перемножение вектора признаков с диагональной матрицей весов) для первичного отбора признаков. И всё это ещё лучше работает в ансамбле с бустингом, с использованием SELU/Mish в качестве функций активации и так далее.
В итоге я обновил свой предыдущий подход (см 1ю табличку), и действительно, результат как будто лучше, чем у бустинга. RealMLP - подтверждаю, работает быстро, сразу из коробки, гиперпараметры тюнить не надо. Можно тестировать на рабочих задачах.
🔥12❤4🤝4🙏1