Risk management in a dynamic society (Rasmussen), Resilience In Complex Adaptive Systems (R. Cook) Нашел в заметках за 23г, статью от 97г - но кажется материалы стали только актуальнее
В статье и докладе строится модель функционирования сложных систем (от АЭС до IT проектов), ограниченных тремя границами: экономической эффективности (сost / за ней система нерентабельна), рабочей нагрузки (сapacity / без неё — нехватка ресурсов) и отказа (accident boundary / за ней - критичные инциденты).
Система постоянно дрейфует к границе отказа/инцидентов из-за стремления сократить затраты и нагрузку. Чтобы избежать инцидентов, вводят буфер безопасности (margin of safety), но его со временем сдвигают ближе к опасной границе (normalization of deviance), что создаёт иллюзию избыточной прочности (это как ездить на максимальной разрешенной скорости). К тому же процесс часто разделён между несколькими уровнями иерархии.
Стабильность обеспечивают люди, способные адаптироваться и реагировать на угрозы, а не, почему то, регламенты. Рекомендация: сделать процесс прозрачными и обложить все мониторингом
P.S. Для автономных систем текущих ai агентов и обычных LLM с промтами может быть недостаточно
В статье и докладе строится модель функционирования сложных систем (от АЭС до IT проектов), ограниченных тремя границами: экономической эффективности (сost / за ней система нерентабельна), рабочей нагрузки (сapacity / без неё — нехватка ресурсов) и отказа (accident boundary / за ней - критичные инциденты).
Система постоянно дрейфует к границе отказа/инцидентов из-за стремления сократить затраты и нагрузку. Чтобы избежать инцидентов, вводят буфер безопасности (margin of safety), но его со временем сдвигают ближе к опасной границе (normalization of deviance), что создаёт иллюзию избыточной прочности (это как ездить на максимальной разрешенной скорости). К тому же процесс часто разделён между несколькими уровнями иерархии.
Стабильность обеспечивают люди, способные адаптироваться и реагировать на угрозы, а не, почему то, регламенты. Рекомендация: сделать процесс прозрачными и обложить все мониторингом
P.S. Для автономных систем текущих ai агентов и обычных LLM с промтами может быть недостаточно
👍6❤5🤔1
Ещё в конце мая Google запустил в открытое тестирование свой ассистент Jules для кодинга с интеграцией в GitHub (сам создаёт pull request и т. д.).
Попробовал протестировать на своём открытом репозитории: readmemd он переписал неплохо. Не зря у Gemini 2.5 Pro контекст в 1М токенов, это вам не Sonnet, где всего 200к.
Дальше — попытка добавить новый функционал. Первая попытка — провал: задачу он решил не так. Лучше отдельным запросом попросить улучшить промпт, даже через тот же Gemini. На следующей попытке он уже упал, пытаясь поставить все зависимости проекта. Установка torch пока оказалась для него непосильной задачей, но отрадно, что он, получается, пробует запускать и тестировать код.
Так или иначе, написанный им код я протестировал самостоятельно, и он не работал. Дебажить 400+ строк изменений — помянем. Ещё он обильно раскидал по коду пометки о том, что код нужно дорабатывать (например, # TODO: Add test for novelty retry logic (more complex mock for _generate_via_prompt)). Ах да, каждый запрос — это до часа ожидания.
Очень неплохо, но, кажется, Cursor пока лучше.
Попробовал протестировать на своём открытом репозитории: readmemd он переписал неплохо. Не зря у Gemini 2.5 Pro контекст в 1М токенов, это вам не Sonnet, где всего 200к.
Дальше — попытка добавить новый функционал. Первая попытка — провал: задачу он решил не так. Лучше отдельным запросом попросить улучшить промпт, даже через тот же Gemini. На следующей попытке он уже упал, пытаясь поставить все зависимости проекта. Установка torch пока оказалась для него непосильной задачей, но отрадно, что он, получается, пробует запускать и тестировать код.
Так или иначе, написанный им код я протестировал самостоятельно, и он не работал. Дебажить 400+ строк изменений — помянем. Ещё он обильно раскидал по коду пометки о том, что код нужно дорабатывать (например, # TODO: Add test for novelty retry logic (more complex mock for _generate_via_prompt)). Ах да, каждый запрос — это до часа ожидания.
Очень неплохо, но, кажется, Cursor пока лучше.
😁8👍2🙏1
Полистал ежегодный отчет Сбера за 2024 год и увидел проект, в запуске которого участвовал (я про Индивидуальный мониторинг). Приятно 🍷
Весь отчет 486 листов тут
Весь отчет 486 листов тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤6👍6👏2
На Reddit ещё один успешный кейс: чат-бот с 400$ натрейдил иксы. Там, конечно, торги с длинным плечом и, соответственно, рискованные операции на известной платформе Robinhood. А так, конечно, на растущем рынке всё будет работать.
Забавно, что если скормить исторические цены, то там не rocket science, а вызов питона и далее обычно линейная регрессия (как в excel`e протянуть значения), или экспоненциальное сглаживание, как здесь:
PS На акциях nvidia ошибка 40% за 3 месяца by chatgpt 4.1
Забавно, что если скормить исторические цены, то там не rocket science, а вызов питона и далее обычно линейная регрессия (как в excel`e протянуть значения), или экспоненциальное сглаживание, как здесь:
data = pd.read_csv(…)
...
model = ExponentialSmoothing(monthly_data, trend='add', seasonal=None, initialization_method='estimated')
fitted_model = model.fit()
fitted_model.forecast(3)
PS На акциях nvidia ошибка 40% за 3 месяца by chatgpt 4.1
Reddit
From the ChatGPT community on Reddit
Explore this post and more from the ChatGPT community
❤6😁4👍3
Какое-то время играю в большой теннис 🎾 — очень годный вид спорта, рекомендую. Особенно если пережить первые полгода. Пишите, кто хочет сыграть на севере Москвы 😉
Так вот, наткнулся на интересное приложение Swing Vision как раз для тенниса, там даже в инвесторах теннисисты ex ATP No1. Снимая, как ты играешь, можешь получить сквозную статистику своей игры: сколько ударов, откуда, точность, скорость. Интересно, что инференс у них локально на телефоне, причём как будто без ошибок, самый длинный розыгрыш нашёл правильно. Даже есть функция challenge (aka Hawk-Eye), чтобы определить, был ли аут. Рекомендую хотя бы побаловаться. Для использования нужен трипод чтобы снимать корт
Так вот, наткнулся на интересное приложение Swing Vision как раз для тенниса, там даже в инвесторах теннисисты ex ATP No1. Снимая, как ты играешь, можешь получить сквозную статистику своей игры: сколько ударов, откуда, точность, скорость. Интересно, что инференс у них локально на телефоне, причём как будто без ошибок, самый длинный розыгрыш нашёл правильно. Даже есть функция challenge (aka Hawk-Eye), чтобы определить, был ли аут. Рекомендую хотя бы побаловаться. Для использования нужен трипод чтобы снимать корт
🔥16👍6❤3
Новый обзор трендов OCR и Vision-LLM за Q1/Q2 2025 от Игоря Галицкого (тут linkedin)
Ключевые тезисы:
Новая SOTA: С Gemini 2.5 планка качества для OCR с Vision-LLM значительно поднялась. Модель лидирует на ключевых бенчмарках, включая новый IDP leaderboard. Gemini 2.5 лучше qwen 2.5 vl / gpt-4o в среднем на 15-20% по бенчмаркам
Эффективные small VLM: Появились компактные мультитаск-модели (MonkeyOCR, Dolphin), которые показывают SOTA-результаты при минимальных вычислительных ресурсах, используя подходы из классического DL/CV.
Распознавание текста vs. парсинг диаграмм (сhart Captioning): Одно дело текст распознавать, и котиков описывать, но вот отвечать на вопросы по графикам пока кажется не решенной задачей. Что и показал и новый бенчмарк ChartQA Pro, даже топовые VLM далеки от человеческого уровня (85%) в задачах анализа графиков (модельки уже старые но не думаю что сильно изменилось): Claude Sonnet 3.5: ≈ 56% и GPT-4o (с CoT): ≈ 42%. Более того в одном из своих pet project`в c курса, все эти rag пайплайны у менч по pdf файлам с ocr еще и жутко медленно работали (не пользуйтесь unstructured), и получались похожие метрики. Исследователи обратите внимание😔
Причина — моделям сложно одновременно выполнять две задачи: точное визуальное восприятие (perception) и логический анализ данных (reasoning), особенно в сложных случаях с мульти-чартами и легендами
🤔 Почему это важно?
Несмотря на достойный прогресс универсальных VLM, для enterprise-задач, где важна точность координат (например, PII-маскирование, live-перевод) или работа с изображениями низкого качества (low DPI), специализированные модели и pipeline-решения по-прежнему остаются лучшим выбором
Ключевые тезисы:
Новая SOTA: С Gemini 2.5 планка качества для OCR с Vision-LLM значительно поднялась. Модель лидирует на ключевых бенчмарках, включая новый IDP leaderboard. Gemini 2.5 лучше qwen 2.5 vl / gpt-4o в среднем на 15-20% по бенчмаркам
Эффективные small VLM: Появились компактные мультитаск-модели (MonkeyOCR, Dolphin), которые показывают SOTA-результаты при минимальных вычислительных ресурсах, используя подходы из классического DL/CV.
Распознавание текста vs. парсинг диаграмм (сhart Captioning): Одно дело текст распознавать, и котиков описывать, но вот отвечать на вопросы по графикам пока кажется не решенной задачей. Что и показал и новый бенчмарк ChartQA Pro, даже топовые VLM далеки от человеческого уровня (85%) в задачах анализа графиков (модельки уже старые но не думаю что сильно изменилось): Claude Sonnet 3.5: ≈ 56% и GPT-4o (с CoT): ≈ 42%. Более того в одном из своих pet project`в c курса, все эти rag пайплайны у менч по pdf файлам с ocr еще и жутко медленно работали (не пользуйтесь unstructured), и получались похожие метрики. Исследователи обратите внимание
Причина — моделям сложно одновременно выполнять две задачи: точное визуальное восприятие (perception) и логический анализ данных (reasoning), особенно в сложных случаях с мульти-чартами и легендами
🤔 Почему это важно?
Несмотря на достойный прогресс универсальных VLM, для enterprise-задач, где важна точность координат (например, PII-маскирование, live-перевод) или работа с изображениями низкого качества (low DPI), специализированные модели и pipeline-решения по-прежнему остаются лучшим выбором
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3👎1🤔1
Почти год назад я ездил на Шри-Ланку 🇱🇰, удалось взять тур по путёвке. Спорные ожидания из-за еды, но понравилось:
• Океан. Классные волны и, наверное, самое доступное место для сёрфинга - личный инструктур стоит 1000 рублей в час. Правда, я отбил себе ребро, которое заживало месяц, хах.
• Чай. Полюбил цейлонский чай - совсем не горчит.
• Еда. Местная кухня действительно спорная (вайбы Индии), но я попробовал акулу, которая на вкус как обычная белая рыба. Зато фрукты очень неплохие, особенно дуриан - ням <3.
• Сафари по реке - моё почтение. Там были и крокодилы на чиле. Минут пять я вглядывался в хамелеона, сидевшего в кустах в метре от меня (вокруг всё зелёное, и он тоже зелёный). Лангуры, хоть и дикие, оказались очень дружелюбными и почти ручными, в отличие от многих других азиатских обезьян. Запустили черепашек в океан
• Океан. Классные волны и, наверное, самое доступное место для сёрфинга - личный инструктур стоит 1000 рублей в час. Правда, я отбил себе ребро, которое заживало месяц, хах.
• Чай. Полюбил цейлонский чай - совсем не горчит.
• Еда. Местная кухня действительно спорная (вайбы Индии), но я попробовал акулу, которая на вкус как обычная белая рыба. Зато фрукты очень неплохие, особенно дуриан - ням <3.
• Сафари по реке - моё почтение. Там были и крокодилы на чиле. Минут пять я вглядывался в хамелеона, сидевшего в кустах в метре от меня (вокруг всё зелёное, и он тоже зелёный). Лангуры, хоть и дикие, оказались очень дружелюбными и почти ручными, в отличие от многих других азиатских обезьян. Запустили черепашек в океан
❤13👍5💘3👌1