AI.Insaf

❤11🔥7👍3

589 views11:10

❤11🔥7👍4

630 views11:10

Risk management in a dynamic society (Rasmussen), Resilience In Complex Adaptive Systems (R. Cook) Нашел в заметках за 23г, статью от 97г - но кажется материалы стали только актуальнее

В статье и докладе строится модель функционирования сложных систем (от АЭС до IT проектов), ограниченных тремя границами: экономической эффективности (сost / за ней система нерентабельна), рабочей нагрузки (сapacity / без неё — нехватка ресурсов) и отказа (accident boundary / за ней - критичные инциденты).

Система постоянно дрейфует к границе отказа/инцидентов из-за стремления сократить затраты и нагрузку. Чтобы избежать инцидентов, вводят буфер безопасности (margin of safety), но его со временем сдвигают ближе к опасной границе (normalization of deviance), что создаёт иллюзию избыточной прочности (это как ездить на максимальной разрешенной скорости). К тому же процесс часто разделён между несколькими уровнями иерархии.

Стабильность обеспечивают люди, способные адаптироваться и реагировать на угрозы, а не, почему то, регламенты. Рекомендация: сделать процесс прозрачными и обложить все мониторингом

P.S. Для автономных систем текущих ai агентов и обычных LLM с промтами может быть недостаточно

👍6❤5🤔1

885 views06:22

AI.Insaf

Гугл — Яндекс: 1–0

😁15👎2🤔2🤝1

865 views20:50

AI.Insaf

Ещё в конце мая Google запустил в открытое тестирование свой ассистент Jules для кодинга с интеграцией в GitHub (сам создаёт pull request и т. д.).

Попробовал протестировать на своём открытом репозитории: readmemd он переписал неплохо. Не зря у Gemini 2.5 Pro контекст в 1М токенов, это вам не Sonnet, где всего 200к.

Дальше — попытка добавить новый функционал. Первая попытка — провал: задачу он решил не так. Лучше отдельным запросом попросить улучшить промпт, даже через тот же Gemini. На следующей попытке он уже упал, пытаясь поставить все зависимости проекта. Установка torch пока оказалась для него непосильной задачей, но отрадно, что он, получается, пробует запускать и тестировать код.

Так или иначе, написанный им код я протестировал самостоятельно, и он не работал. Дебажить 400+ строк изменений — помянем. Ещё он обильно раскидал по коду пометки о том, что код нужно дорабатывать (например, # TODO: Add test for novelty retry logic (more complex mock for _generate_via_prompt)). Ах да, каждый запрос — это до часа ожидания.

Очень неплохо, но, кажется, Cursor пока лучше.

😁8👍2🙏1

926 views18:57

AI.Insaf

Полистал ежегодный отчет Сбера за 2024 год и увидел проект, в запуске которого участвовал (я про Индивидуальный мониторинг). Приятно 🍷

Весь отчет 486 листов тут

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤6👍6👏2

676 views20:47

AI.Insaf

На Reddit ещё один успешный кейс: чат-бот с 400$ натрейдил иксы. Там, конечно, торги с длинным плечом и, соответственно, рискованные операции на известной платформе Robinhood. А так, конечно, на растущем рынке всё будет работать.

Забавно, что если скормить исторические цены, то там не rocket science, а вызов питона и далее обычно линейная регрессия (как в excel`e протянуть значения), или экспоненциальное сглаживание, как здесь:

data = pd.read_csv(…) 
...
model = ExponentialSmoothing(monthly_data, trend='add', seasonal=None, initialization_method='estimated') 
fitted_model = model.fit() 
fitted_model.forecast(3)

PS На акциях nvidia ошибка 40% за 3 месяца by chatgpt 4.1

From the ChatGPT community on Reddit

Explore this post and more from the ChatGPT community

❤6😁4👍3

698 viewsedited 21:16

AI.Insaf

Какое-то время играю в большой теннис 🎾 — очень годный вид спорта, рекомендую. Особенно если пережить первые полгода. Пишите, кто хочет сыграть на севере Москвы 😉

Так вот, наткнулся на интересное приложение Swing Vision как раз для тенниса, там даже в инвесторах теннисисты ex ATP No1. Снимая, как ты играешь, можешь получить сквозную статистику своей игры: сколько ударов, откуда, точность, скорость. Интересно, что инференс у них локально на телефоне, причём как будто без ошибок, самый длинный розыгрыш нашёл правильно. Даже есть функция challenge (aka Hawk-Eye), чтобы определить, был ли аут. Рекомендую хотя бы побаловаться. Для использования нужен трипод чтобы снимать корт

🔥16👍6❤3

640 viewsedited 21:23

AI.Insaf

Новый обзор трендов OCR и Vision-LLM за Q1/Q2 2025 от Игоря Галицкого (тут linkedin)

Ключевые тезисы:

Новая SOTA: С Gemini 2.5 планка качества для OCR с Vision-LLM значительно поднялась. Модель лидирует на ключевых бенчмарках, включая новый IDP leaderboard. Gemini 2.5 лучше qwen 2.5 vl / gpt-4o в среднем на 15-20% по бенчмаркам

Эффективные small VLM: Появились компактные мультитаск-модели (MonkeyOCR, Dolphin), которые показывают SOTA-результаты при минимальных вычислительных ресурсах, используя подходы из классического DL/CV.

Распознавание текста vs. парсинг диаграмм (сhart Captioning): Одно дело текст распознавать, и котиков описывать, но вот отвечать на вопросы по графикам пока кажется не решенной задачей. Что и показал и новый бенчмарк ChartQA Pro, даже топовые VLM далеки от человеческого уровня (85%) в задачах анализа графиков (модельки уже старые но не думаю что сильно изменилось): Claude Sonnet 3.5: ≈ 56% и GPT-4o (с CoT): ≈ 42%. Более того в одном из своих pet project`в c курса, все эти rag пайплайны у менч по pdf файлам с ocr еще и жутко медленно работали (не пользуйтесь unstructured), и получались похожие метрики. Исследователи обратите внимание 😔

Причина — моделям сложно одновременно выполнять две задачи: точное визуальное восприятие (perception) и логический анализ данных (reasoning), особенно в сложных случаях с мульти-чартами и легендами

🤔 Почему это важно?
Несмотря на достойный прогресс универсальных VLM, для enterprise-задач, где важна точность координат (например, PII-маскирование, live-перевод) или работа с изображениями низкого качества (low DPI), специализированные модели и pipeline-решения по-прежнему остаются лучшим выбором

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥3👎1🤔1

1.08K viewsedited 13:18

AI.Insaf

Почти год назад я ездил на Шри-Ланку 🇱🇰, удалось взять тур по путёвке. Спорные ожидания из-за еды, но понравилось:

• Океан. Классные волны и, наверное, самое доступное место для сёрфинга - личный инструктур стоит 1000 рублей в час. Правда, я отбил себе ребро, которое заживало месяц, хах.
• Чай. Полюбил цейлонский чай - совсем не горчит.
• Еда. Местная кухня действительно спорная (вайбы Индии), но я попробовал акулу, которая на вкус как обычная белая рыба. Зато фрукты очень неплохие, особенно дуриан - ням <3.
• Сафари по реке - моё почтение. Там были и крокодилы на чиле. Минут пять я вглядывался в хамелеона, сидевшего в кустах в метре от меня (вокруг всё зелёное, и он тоже зелёный). Лангуры, хоть и дикие, оказались очень дружелюбными и почти ручными, в отличие от многих других азиатских обезьян. Запустили черепашек в океан

❤13👍5💘3👌1

859 views19:43

About

Blog

Apps

Platform