Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 DeepConf — новый подход к мышлению ИИ
Учёные придумали новые метод Deep Think with Confidence (DeepConf).
Он позволяет модели сразу отбрасывать «слабые» варианты ответа и оставлять только те, в которых она уверена.
Классический метод *parallel thinking* (self-consistency) работает так: модель генерирует множество рассуждений и выбирает лучший ответ по большинству. Точность повышается, но ресурсы тратятся огромные — тысячи токенов уходят на слабые варианты.
🔹 DeepConf решает эту проблему: модель сама оценивает уровень уверенности в рассуждениях и отбрасывает «слабые» ветви — либо сразу, либо после генерации.
Как это устроено:
1️⃣ Оценка уверенности на уровне токенов — смотрится вероятность выбранного токена (log-prob) или энтропия.
2️⃣ Group Confidence — оценки объединяются в блоки, чтобы понять силу целой ветки рассуждения.
3️⃣ Online-режим — слабые ветки отсекаются прямо в процессе.
4️⃣ Offline-режим — сначала генерируются все ответы, потом остаются только те, где уверенность высокая.
📈 Результаты:
- На AIME-2025 точность выросла до 99,9%
- Количество лишних токенов сократилось почти на 85%
- Работает без дообучения и сложных настроек
📚 Paper: https://arxiv.org/pdf/2508.15260
🌐 Project: https://jiaweizzhao.github.io/deepconf
Учёные придумали новые метод Deep Think with Confidence (DeepConf).
Он позволяет модели сразу отбрасывать «слабые» варианты ответа и оставлять только те, в которых она уверена.
Классический метод *parallel thinking* (self-consistency) работает так: модель генерирует множество рассуждений и выбирает лучший ответ по большинству. Точность повышается, но ресурсы тратятся огромные — тысячи токенов уходят на слабые варианты.
🔹 DeepConf решает эту проблему: модель сама оценивает уровень уверенности в рассуждениях и отбрасывает «слабые» ветви — либо сразу, либо после генерации.
Как это устроено:
1️⃣ Оценка уверенности на уровне токенов — смотрится вероятность выбранного токена (log-prob) или энтропия.
2️⃣ Group Confidence — оценки объединяются в блоки, чтобы понять силу целой ветки рассуждения.
3️⃣ Online-режим — слабые ветки отсекаются прямо в процессе.
4️⃣ Offline-режим — сначала генерируются все ответы, потом остаются только те, где уверенность высокая.
📈 Результаты:
- На AIME-2025 точность выросла до 99,9%
- Количество лишних токенов сократилось почти на 85%
- Работает без дообучения и сложных настроек
📚 Paper: https://arxiv.org/pdf/2508.15260
🌐 Project: https://jiaweizzhao.github.io/deepconf
🔥8⚡4❤2👍1
Media is too big
VIEW IN TELEGRAM
Zhiyuan Mall — мегамолл роботов запущен в Китае
Zhiyuan Robot в сотрудничестве с LG, JD.com и Tencent запустили супермаркет гуманоидных роботов.
В наличии несколько категорий, - от промышленных до бытовых и даже молодёжных :).
В продаже и гуманоиды и собаки и запчасти к ним.
Есть так же VR комплекты дистанционного управления и аккумуляторные наборы.
В целом приоритет - opensourse подход и глобальная экспансия.
Роботы теперь продаются как посудомойки.
Ждем акции типа "купи телевизор, получи гуманоида в подарок".
М-Видео когда уже?
Или кто у нас еще ИИ роботов возит? 😉
#Zhiyuan #robots #Китай
------
@tsingular
Zhiyuan Robot в сотрудничестве с LG, JD.com и Tencent запустили супермаркет гуманоидных роботов.
В наличии несколько категорий, - от промышленных до бытовых и даже молодёжных :).
В продаже и гуманоиды и собаки и запчасти к ним.
Есть так же VR комплекты дистанционного управления и аккумуляторные наборы.
В целом приоритет - opensourse подход и глобальная экспансия.
Роботы теперь продаются как посудомойки.
Ждем акции типа "купи телевизор, получи гуманоида в подарок".
М-Видео когда уже?
Или кто у нас еще ИИ роботов возит? 😉
#Zhiyuan #robots #Китай
------
@tsingular
Материалы про Schema-Guided Reasoning (SGR) для LLM от Рината Абдуллина @llm_under_hood
- SGR Intro - заглавная страница с определением и основными ссылками
- SGR Patterns - примеры простых паттернов, из которых можно "собирать" более сложные reasoning схемы: Cascade, Routing, Cycle.
- SGR Examples - четыре примера: simple math task, text-to-sql, document classification, advanced reasoning in compliance.
- SGR Demo - пример бизнес-ассистента с использованием инструментов на базе SGR
Интересная подборка. Изучаем.
#SGR #обучение #structuredoutput #promptengineering
------
@tsingular
- SGR Intro - заглавная страница с определением и основными ссылками
- SGR Patterns - примеры простых паттернов, из которых можно "собирать" более сложные reasoning схемы: Cascade, Routing, Cycle.
- SGR Examples - четыре примера: simple math task, text-to-sql, document classification, advanced reasoning in compliance.
- SGR Demo - пример бизнес-ассистента с использованием инструментов на базе SGR
Интересная подборка. Изучаем.
#SGR #обучение #structuredoutput #promptengineering
------
@tsingular
✍3⚡1😁1
Forwarded from ИТ в Медицине
Учёные из Массачусетса представили разработки, которые могут перевернуть наше представление о профилактике и мониторинге здоровья в будущем.
🔹 В MIT создали ультразвуковой бюстгальтер-сканер. Он позволяет женщинам проходить регулярные обследования груди прямо дома, между визитами к врачу. Идея родилась после личной трагедии исследовательницы Канан Даґдевирен: её тётя умерла от рака, который не был выявлен вовремя. Теперь диагностика может стать регулярной и максимально удобной — без похода в клинику.
🔹 Другой проект — графеновые «татуировки», которые считывают биохимические процессы организма и способны заранее предупреждать о приближении сердечного приступа. Они настолько тонкие и незаметные, что человек может забыть о них, пока в нужный момент устройство не подаст сигнал.
🔹 Ещё одна разработка от профессора Йоэля Финка — «умная нить», которая может хранить данные, выполнять алгоритмы ИИ, улавливать движение и звук, а также передавать всё это через Bluetooth. Обычная футболка может превратиться в медицинский датчик, который фиксирует изменения в вашем организме.
Пока все это напоминает снаряжение героев сериала Star Trek, но возможно когда-то действительно так и будет.
@it_medicine
🔹 В MIT создали ультразвуковой бюстгальтер-сканер. Он позволяет женщинам проходить регулярные обследования груди прямо дома, между визитами к врачу. Идея родилась после личной трагедии исследовательницы Канан Даґдевирен: её тётя умерла от рака, который не был выявлен вовремя. Теперь диагностика может стать регулярной и максимально удобной — без похода в клинику.
🔹 Другой проект — графеновые «татуировки», которые считывают биохимические процессы организма и способны заранее предупреждать о приближении сердечного приступа. Они настолько тонкие и незаметные, что человек может забыть о них, пока в нужный момент устройство не подаст сигнал.
🔹 Ещё одна разработка от профессора Йоэля Финка — «умная нить», которая может хранить данные, выполнять алгоритмы ИИ, улавливать движение и звук, а также передавать всё это через Bluetooth. Обычная футболка может превратиться в медицинский датчик, который фиксирует изменения в вашем организме.
Пока все это напоминает снаряжение героев сериала Star Trek, но возможно когда-то действительно так и будет.
@it_medicine
WBUR
These 3 health gadgets will make you feel like the future is (almost) here
Massachusetts scientists are building the next generation of wearables — tattoos, fabrics and bras — that could monitor health more accurately than today's smartwatches and fitness tracking devices.
🔥9✍2⚡1❤1👍1
Forwarded from Сиолошная
MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers
Свежий бенчмарк от Salesforce, на этот раз тестируют навыки работы LLM с популярными MCP-серверами. MCP — это предложенный Anthropic в конце 2024-го года протокол взаимодействия LLM со внешними системами и источниками данных. По сути те же инструменты, только собранные в наборы для отдельных сервисов: поиск, Гугл Карты, итд. При этом, так как технология MCP — «молодая», модели ещё не настолько хорошо с ними работают и не обучались на них по сто тыщ раз.
Авторы собрали 11 MCP серверов (на 133 инструмента) из 6 доменов, и придумали 231 задачу, которая решается с использованием одного или нескольких MCP:
— Для домена навигации по картам выбрали 4 типа подзадач, включая планирование маршрута, оптимальные остановки, поиск местоположения и поиск по ID конкретного заведения
— Для домена управления репозиторием с кодом тоже 4 типа подзадач, включая настройку проекта, отслеживание проблем, настройку автоматизации и интеграцию кода
— Для домена финансового анализа 5 подзадач: анализ портфеля, финансовая отчетность, торговые стратегии, институциональные активы и анализ дивидендов
— Для домена 3D-проектирования (используют Blender) 5 подзадач, включая создание объектов, настройку материалов, конфигурацию освещения, настройки рендеринга и иерархию сцен
— Для домена автоматизации браузера 5 подзадач: бронирование билетов, спортивная аналитика, академические исследования, исследование платформы и навигация по карте
— Для домена веб-поиска тоже 5: идентификацию человека, обнаружение сущностей, сопоставление метрик, сложные рассуждения и поиск фактов.
Существенная часть задач требует больше 5 обращений к MCP-серверу, что подразумевает хорошую работу LLM с длинным контекстом. Результат работы оценивается по трём критериям: оценка формата, простая сверка ответа и динамическая. Последняя — это для запросов в духе «какая сегодня погода», так как ответ меняется из раза в раз.
Авторы отсеивали задачи, которые LLM могут сделать без MCP серверов или если модель решает задачу 5 раз из 5 — они были слишком лёгкими.
Свежий бенчмарк от Salesforce, на этот раз тестируют навыки работы LLM с популярными MCP-серверами. MCP — это предложенный Anthropic в конце 2024-го года протокол взаимодействия LLM со внешними системами и источниками данных. По сути те же инструменты, только собранные в наборы для отдельных сервисов: поиск, Гугл Карты, итд. При этом, так как технология MCP — «молодая», модели ещё не настолько хорошо с ними работают и не обучались на них по сто тыщ раз.
Авторы собрали 11 MCP серверов (на 133 инструмента) из 6 доменов, и придумали 231 задачу, которая решается с использованием одного или нескольких MCP:
— Для домена навигации по картам выбрали 4 типа подзадач, включая планирование маршрута, оптимальные остановки, поиск местоположения и поиск по ID конкретного заведения
— Для домена управления репозиторием с кодом тоже 4 типа подзадач, включая настройку проекта, отслеживание проблем, настройку автоматизации и интеграцию кода
— Для домена финансового анализа 5 подзадач: анализ портфеля, финансовая отчетность, торговые стратегии, институциональные активы и анализ дивидендов
— Для домена 3D-проектирования (используют Blender) 5 подзадач, включая создание объектов, настройку материалов, конфигурацию освещения, настройки рендеринга и иерархию сцен
— Для домена автоматизации браузера 5 подзадач: бронирование билетов, спортивная аналитика, академические исследования, исследование платформы и навигация по карте
— Для домена веб-поиска тоже 5: идентификацию человека, обнаружение сущностей, сопоставление метрик, сложные рассуждения и поиск фактов.
Существенная часть задач требует больше 5 обращений к MCP-серверу, что подразумевает хорошую работу LLM с длинным контекстом. Результат работы оценивается по трём критериям: оценка формата, простая сверка ответа и динамическая. Последняя — это для запросов в духе «какая сегодня погода», так как ответ меняется из раза в раз.
Авторы отсеивали задачи, которые LLM могут сделать без MCP серверов или если модель решает задачу 5 раз из 5 — они были слишком лёгкими.
❤5✍1👍1🔥1
🚀 Macrohard: Маск запускает AI-компанию против Microsoft
Илон Маск анонсировал проект полностью автоматизированной софтверной компании на базе AI — прямого конкурента Microsoft.
Суть инициативы: создать первую компанию, где сотни AI-агентов на базе Grok самостоятельно разрабатывают, тестируют и выпускают ПО без участия людей.
Технический фундамент:
- Суперкомпьютер Colossus: 200K+ GPU Nvidia с планами усиления до 1M к концу года (строят ускоренными темпами, - буквально датацентр в палатках)
- Производительность: 98,9 экзафлопс (одна из топ-5 AI-систем мира на сегодня)
- Модель Grok-4 с мультиагентной архитектурой
- Развертывание за 122 дня вместо стандартных 18-24 месяцев
- Потребление энергии: 250 МВт с планами до 1,65 ГВт
Финансирование:
$12 млрд привлечено, оценка $80 млрд
Но сжигает $1 млрд ежемесячно
Обещает 70% снижение затрат на разработку
Следующие 18 месяцев покажут насколько реально с маскока вытеснить Майкрософт с рынка, на котором она окапывалась почти 5 десятилетий (в следующем году 4 апреля 50 лет будет).
Но даже если не получится, - опыт автономной разработки роем ИИ агентов Маск наработает бесценный, конечно.
#Macrohard #xAI #ElonMusk #Microsoft
———
@tsingular
Илон Маск анонсировал проект полностью автоматизированной софтверной компании на базе AI — прямого конкурента Microsoft.
Суть инициативы: создать первую компанию, где сотни AI-агентов на базе Grok самостоятельно разрабатывают, тестируют и выпускают ПО без участия людей.
Технический фундамент:
- Суперкомпьютер Colossus: 200K+ GPU Nvidia с планами усиления до 1M к концу года (строят ускоренными темпами, - буквально датацентр в палатках)
- Производительность: 98,9 экзафлопс (одна из топ-5 AI-систем мира на сегодня)
- Модель Grok-4 с мультиагентной архитектурой
- Развертывание за 122 дня вместо стандартных 18-24 месяцев
- Потребление энергии: 250 МВт с планами до 1,65 ГВт
Финансирование:
$12 млрд привлечено, оценка $80 млрд
Но сжигает $1 млрд ежемесячно
Обещает 70% снижение затрат на разработку
Следующие 18 месяцев покажут насколько реально с маскока вытеснить Майкрософт с рынка, на котором она окапывалась почти 5 десятилетий (в следующем году 4 апреля 50 лет будет).
Но даже если не получится, - опыт автономной разработки роем ИИ агентов Маск наработает бесценный, конечно.
#Macrohard #xAI #ElonMusk #Microsoft
———
@tsingular
🔥18😁6👀1
🚀 Seed-OSS-36B-Instruct от ByteDance — новая открытая модель с контролем глубины мышления
36B параметров с GQA attention
Контекст 512K токенов
Совместимость с vLLM и Transformers
Бенчмарки — SOTA среди открытых моделей:
MMLU: 90.6% (vs 78.6% у Gemma3-27B)
LiveCodeBench: 66.8%
SWE-Bench Verified: 48.4%
AIME 2024: 90.3%
ArcAGI V2 - 50.3%
SimpleQA 23.7%
Agent: SWE-Bench Verified
(OpenHands) 41.8%
Про thinking budget:
- Задается через лимит токенов на размышления (512, 1K, 2K, 4K, 8K, 16K)
- Модель периодически отчитывается о потраченных/оставшихся ресурсах
- При исчерпании бюджета выдает финальный ответ
- Budget = 0 → прямой ответ без раздумий
Требует ~77GB VRAM (FP16), но thinking budget позволяет оптимизировать затраты — простые задачи решает быстро, сложные получают необходимое время на размышления.
Есть GGUF вариант под LM Studio и Ollama в Q4 - 20 гигов
Q8 - 38.5 Gb
Apache 2.0 лицензия - можно использовать в коммерции.
HF: https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
#SeedOSS #ByteDance #OpenSource #Китай
———
@tsingular
36B параметров с GQA attention
Контекст 512K токенов
Совместимость с vLLM и Transformers
Бенчмарки — SOTA среди открытых моделей:
MMLU: 90.6% (vs 78.6% у Gemma3-27B)
LiveCodeBench: 66.8%
SWE-Bench Verified: 48.4%
AIME 2024: 90.3%
ArcAGI V2 - 50.3%
SimpleQA 23.7%
Agent: SWE-Bench Verified
(OpenHands) 41.8%
Про thinking budget:
- Задается через лимит токенов на размышления (512, 1K, 2K, 4K, 8K, 16K)
- Модель периодически отчитывается о потраченных/оставшихся ресурсах
- При исчерпании бюджета выдает финальный ответ
- Budget = 0 → прямой ответ без раздумий
Требует ~77GB VRAM (FP16), но thinking budget позволяет оптимизировать затраты — простые задачи решает быстро, сложные получают необходимое время на размышления.
Есть GGUF вариант под LM Studio и Ollama в Q4 - 20 гигов
Q8 - 38.5 Gb
Apache 2.0 лицензия - можно использовать в коммерции.
HF: https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
#SeedOSS #ByteDance #OpenSource #Китай
———
@tsingular
⚡3👍2🔥2❤1
🇨🇳 Китай захватил топ OpenSource на designarena.ai
Интересно сформировался топ-15 открытых моделей в Design Arena,- теперь он состоит только из китайских моделей.
Топ-15 открытых моделей:
- DeepSeek - лидер (5 моделей: позиции 1, 4, 5, 8, 10)
- Alibaba (6 моделей: позиции 3, 6, 9, 13, 14, 15)
- Zhipu AI (2 модели: позиции 2, 7)
- THUDM (1 модель: позиция 11)
- Moonshot AI (1 модель: позиция 12)
Первая западная модель, GPT-OSS-120B, появляется только на 16 месте
#OpenSource #designarena #China #Китай
———
@tsingular
Интересно сформировался топ-15 открытых моделей в Design Arena,- теперь он состоит только из китайских моделей.
Топ-15 открытых моделей:
- DeepSeek - лидер (5 моделей: позиции 1, 4, 5, 8, 10)
- Alibaba (6 моделей: позиции 3, 6, 9, 13, 14, 15)
- Zhipu AI (2 модели: позиции 2, 7)
- THUDM (1 модель: позиция 11)
- Moonshot AI (1 модель: позиция 12)
Первая западная модель, GPT-OSS-120B, появляется только на 16 месте
#OpenSource #designarena #China #Китай
———
@tsingular
🔥10🤯4⚡2❤1
NVIDIA выпустила мини-ПК Jetson AGX Thor за $3499 с производительностью 2070 TFLOPS
NVIDIA выпустила следующую версию набора для разработчиков Jetson AGX Thor Developer Kit.
Получается самый мощный на сегодня мини-ПК компании в первую очередь робототехники и edge-расчетов.
2,070 FP4 TFLOPS, - примерно в 5 раз быстрее, чем Orin64
При этом цена "всего" в 1.75 раза выше ($3500 vs $2000)
Основа системы — чип T5000 на архитектуре Blackwell с 2560-ядерной GPU, 96 Tensor-ядрами пятого поколения и 14-ядерным ARM процессором. В комплекте 128GB LPDDR5X памяти и четыре 25GbE порта.
Потребляет от 40 до 130 Ватт, на борту есть NVMe M.2 слоты, HDMI, USB 3, поддержка подключения USB камеры.
Предзаказы открыты, отгрузки начнутся 20 ноября 2025.
Продам 2х4090 и Jetson Orin-64 :)
#NVIDIA #Jetson #Blackwell
———
@tsingular
NVIDIA выпустила следующую версию набора для разработчиков Jetson AGX Thor Developer Kit.
Получается самый мощный на сегодня мини-ПК компании в первую очередь робототехники и edge-расчетов.
2,070 FP4 TFLOPS, - примерно в 5 раз быстрее, чем Orin64
При этом цена "всего" в 1.75 раза выше ($3500 vs $2000)
Основа системы — чип T5000 на архитектуре Blackwell с 2560-ядерной GPU, 96 Tensor-ядрами пятого поколения и 14-ядерным ARM процессором. В комплекте 128GB LPDDR5X памяти и четыре 25GbE порта.
Потребляет от 40 до 130 Ватт, на борту есть NVMe M.2 слоты, HDMI, USB 3, поддержка подключения USB камеры.
Предзаказы открыты, отгрузки начнутся 20 ноября 2025.
Продам 2х4090 и Jetson Orin-64 :)
#NVIDIA #Jetson #Blackwell
———
@tsingular
⚡6🔥5👍3❤1
Forwarded from Ruadaptная комната
Релиз двух новых моделей и обновление нейминга серии RuadaptQwen3 🎉
Мы подготовили целых два релиза:
- 🚀 Адаптированная
- 🚀 Адаптированная
Обе модели достойно себя показывают и обладают нашим Ruadapt токенайзером. В частности, мы недавно измерили разницу в скорости генерации (
- ⚡️ Скорость генерации ответов на ru_arena_hard вопросы — на 40% быстрее для Ruadapt версий!
- ⚡️ Скорость ответа на вопрос в 300 тыс. символов — на 83% быстрее!
Также важный анонс по поводу нейминга моделей 🔄:
Все текущие
А чисто инструктивные версии будут называться
Модели на HuggingFace:
https://huggingface.co/RefalMachine/RuadaptQwen3-8B-Hybrid
https://huggingface.co/RefalMachine/RuadaptQwen3-8B-Hybrid-GGUF
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF
Мы подготовили целых два релиза:
- 🚀 Адаптированная
Qwen3-8B
→ RuadaptQwen3-8B-Hybrid
- 🚀 Адаптированная
Qwen3-4B-Instruct-2507
→ RuadaptQwen3-4B-Instruct
Обе модели достойно себя показывают и обладают нашим Ruadapt токенайзером. В частности, мы недавно измерили разницу в скорости генерации (
RuadaptQwen3-4B-Instruct
против Qwen3-4B-Instruct-2507
):- ⚡️ Скорость генерации ответов на ru_arena_hard вопросы — на 40% быстрее для Ruadapt версий!
- ⚡️ Скорость ответа на вопрос в 300 тыс. символов — на 83% быстрее!
Также важный анонс по поводу нейминга моделей 🔄:
Все текущие
RuadaptQwen3
модели будут вскоре переименованы из RuadaptQwen3-XB-Instruct
→ в RuadaptQwen3-XB-Hybrid
, так как по сути они являются моделями с гибридным ризонингом (4B модель уже переименована, 32B на днях).А чисто инструктивные версии будут называться
RuadaptQwen3-XB-Instruct
(как, например, адаптация Qwen3-4B-Instruct-2507
).Модели на HuggingFace:
https://huggingface.co/RefalMachine/RuadaptQwen3-8B-Hybrid
https://huggingface.co/RefalMachine/RuadaptQwen3-8B-Hybrid-GGUF
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct
https://huggingface.co/RefalMachine/RuadaptQwen3-4B-Instruct-GGUF
⚡3❤1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
NotebookLM: Video Overviews - теперь поддерживает 80 языков, включая русский.
Более того, не английская озвучка стала такой же эмоциональной и выразительной (ну или просто улучшилась).
Про NotebookLM: Video Overviews я уже писал тут:
https://yangx.top/cgevent/13033
Это не генерация видео, это генерация продвинутых презентаций по загруженным документам.
Аудио озвучка делает подкасты до 25 минут.
Очень крутая штука, лучшая на рынке.
https://blog.google/technology/google-labs/notebook-lm-audio-video-overviews-more-languages-longer-content/
@cgevent
Более того, не английская озвучка стала такой же эмоциональной и выразительной (ну или просто улучшилась).
Про NotebookLM: Video Overviews я уже писал тут:
https://yangx.top/cgevent/13033
Это не генерация видео, это генерация продвинутых презентаций по загруженным документам.
Аудио озвучка делает подкасты до 25 минут.
Очень крутая штука, лучшая на рынке.
https://blog.google/technology/google-labs/notebook-lm-audio-video-overviews-more-languages-longer-content/
@cgevent
⚡5🔥1
ну все. наш мир уже не будет прежним.
Гугл выпустил нанобанану - новый редактор картинок по промпту с лучшей в мире точностью перерисовки без потери контекста.
заходим и пробуем тут:
https://ai.studio/banana
так же раскатывают во всех популярных платформах, типа krea и т.д.
Скоро во всех твиттерах/телеграммах/ботах мира.
Дизайнеры фсё. Помянем.
#nanobanana #Google #нейрорендер
———
@tsingular
Гугл выпустил нанобанану - новый редактор картинок по промпту с лучшей в мире точностью перерисовки без потери контекста.
заходим и пробуем тут:
https://ai.studio/banana
так же раскатывают во всех популярных платформах, типа krea и т.д.
Скоро во всех твиттерах/телеграммах/ботах мира.
Дизайнеры фсё. Помянем.
#nanobanana #Google #нейрорендер
———
@tsingular
🤣7🔥6
Народ вытащил системный промпт GPT-5
Изучаем тут
Ключевые и наиболее интересные пункты:
Запрет на "работу в фоне":
Модели категорически запрещено обещать выполнить задачу позже или просить пользователя подождать. Она должна предоставить результат немедленно, даже если он будет частичным. Просить уточнения, чтобы потянуть время, также запрещено.
Стиль общения — "игривый и болтливый":
По умолчанию модель должна общаться в неформальном, дружелюбном и даже игривом стиле, а не как формальный робот. Ей разрешено использовать эмодзи и сленг, если пользователь задает такой тон.
Интеграция с инструментами:
Модель имеет доступ к огромному набору инструментов, включая:
Личные данные пользователя: Доступ к Google Calendar, Gmail и контактам в режиме "только для чтения" для поиска информации.
Автоматизация задач: Может создавать напоминания и запланированные действия (например, "каждое утро искать новости по теме Х").
Интерактивный "Холст" (Canvas): Может создавать и редактировать документы или код (включая React-компоненты с предпросмотром) в отдельном окне рядом с чатом.
Генерация насыщенного контента (Rich UI): Модель не просто отвечает текстом, а может встраивать в ответ сложные интерактивные элементы:
- Карусели изображений и товаров.
- Виджеты погоды.
- Спортивные таблицы и расписания.
- Графики цен на акции.
Агрессивное использование веб-поиска: Есть очень строгое правило — использовать веб-поиск для любой информации, которая могла устареть (новости, цены, данные о людях, события), а также для проверки любых незнакомых терминов или неясностей.
Девиз: "Если сомневаешься — ищи в вебе".
Система памяти и глубокой персонализации:
Модель имеет доступ к профилю пользователя, его инструкциям, заметкам из прошлых диалогов и может сохранять новую информацию "в память" для использования в будущих разговорах. Это делает общение более контекстным и личным.
Идентичность и "личность": Интересная деталь — модели предписано представляться как "GPT-5 Thinking". Также есть параметр "oververbosity" (многословность) от 1 до 10, который регулирует детальность ответа.
Особые инструкции для задач:
Модели даны конкретные указания, как решать определенные типы задач. Например, при решении арифметических примеров она должна вычислять всё "цифра за цифрой", чтобы избежать ошибок, характерных для языковых моделей.
1000 строк/ 75тыс знаков!
#openai #GPT5 #prompt
———
@tsingular
Изучаем тут
Ключевые и наиболее интересные пункты:
Запрет на "работу в фоне":
Модели категорически запрещено обещать выполнить задачу позже или просить пользователя подождать. Она должна предоставить результат немедленно, даже если он будет частичным. Просить уточнения, чтобы потянуть время, также запрещено.
Стиль общения — "игривый и болтливый":
По умолчанию модель должна общаться в неформальном, дружелюбном и даже игривом стиле, а не как формальный робот. Ей разрешено использовать эмодзи и сленг, если пользователь задает такой тон.
Интеграция с инструментами:
Модель имеет доступ к огромному набору инструментов, включая:
Личные данные пользователя: Доступ к Google Calendar, Gmail и контактам в режиме "только для чтения" для поиска информации.
Автоматизация задач: Может создавать напоминания и запланированные действия (например, "каждое утро искать новости по теме Х").
Интерактивный "Холст" (Canvas): Может создавать и редактировать документы или код (включая React-компоненты с предпросмотром) в отдельном окне рядом с чатом.
Генерация насыщенного контента (Rich UI): Модель не просто отвечает текстом, а может встраивать в ответ сложные интерактивные элементы:
- Карусели изображений и товаров.
- Виджеты погоды.
- Спортивные таблицы и расписания.
- Графики цен на акции.
Агрессивное использование веб-поиска: Есть очень строгое правило — использовать веб-поиск для любой информации, которая могла устареть (новости, цены, данные о людях, события), а также для проверки любых незнакомых терминов или неясностей.
Девиз: "Если сомневаешься — ищи в вебе".
Система памяти и глубокой персонализации:
Модель имеет доступ к профилю пользователя, его инструкциям, заметкам из прошлых диалогов и может сохранять новую информацию "в память" для использования в будущих разговорах. Это делает общение более контекстным и личным.
Идентичность и "личность": Интересная деталь — модели предписано представляться как "GPT-5 Thinking". Также есть параметр "oververbosity" (многословность) от 1 до 10, который регулирует детальность ответа.
Особые инструкции для задач:
Модели даны конкретные указания, как решать определенные типы задач. Например, при решении арифметических примеров она должна вычислять всё "цифра за цифрой", чтобы избежать ошибок, характерных для языковых моделей.
1000 строк/ 75тыс знаков!
#openai #GPT5 #prompt
———
@tsingular
👍7🔥6
оформи, говорю, чистовую отделку и ландшафт
Не, ну я согласен, - выход там, конечно, напрашивается.
Часто думаем об этом.
#нанобанана #Google
———
@tsingular
Не, ну я согласен, - выход там, конечно, напрашивается.
Часто думаем об этом.
#нанобанана #Google
———
@tsingular
🔥13🤣8😁3
Forwarded from Machinelearning
Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.
Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.
Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.
В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.
Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.
Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации
DeepConf-low
сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%. В более консервативном режиме,
DeepConf-high
, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.
Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.
@ai_machinelearning_big_data
#AI #ML #LLM #CoT #DEEPCONF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍6❤4⚡2🔥1
Forwarded from Neural Kovalskii
SGR Deep Research
А почему бы не взять все лучшие идеи из демо и идей ребят из чата
Собрать свои идеи по Deep Research
И сделать самый простой инструмент поиска инфы в интернете через Tavlily API?
А сделать, вот он https://github.com/vakovalskii/sgr-deep-research (звездочки приветствуются)
gpt-4o-mini
Tavily API (1000 реквестов в месяц фри)
SGR-concept
Из интересного что заметил такая модель сама определяет что например чипов M6 у applе не существует и на ходу меняет план рисерча потому что нашла это в данных из инета
Или что термин SGR ей не понятен и просит его расшифровать
Что я закинул туда "навайбкодил"
Соответствие концепту SGR верифицировало Ринатом 😂
Предлагайте ваши эксперименты! Вон даже ребята из Cбера подключились!
А почему бы не взять все лучшие идеи из демо и идей ребят из чата
Собрать свои идеи по Deep Research
И сделать самый простой инструмент поиска инфы в интернете через Tavlily API?
А сделать, вот он https://github.com/vakovalskii/sgr-deep-research (звездочки приветствуются)
gpt-4o-mini
Tavily API (1000 реквестов в месяц фри)
SGR-concept
Из интересного что заметил такая модель сама определяет что например чипов M6 у applе не существует и на ходу меняет план рисерча потому что нашла это в данных из инета
Или что термин SGR ей не понятен и просит его расшифровать
Что я закинул туда "навайбкодил"
1. 🤔 Clarification (ВЫСШИЙ ПРИОРИТЕТ)
- При любой неопределенности в запросе
- Неизвестные термины, акронимы, аббревиатуры
- Неоднозначные запросы с множественными интерпретациями
- Отсутствие контекста для специализированных областей
2. 📋 GeneratePlan
- Когда план не существует и запрос ясен
- После получения уточнений от пользователя
3. 🔄 AdaptPlan
- Когда требуется адаптация исследовательского подхода
- При обнаружении неточностей в первоначальных предположениях
4. 🔍 WebSearch
- Когда нужна дополнительная информация И searches_done < 3
- МАКСИМУМ 3-4 поиска на исследование
5. 📄 CreateReport
- При searches_done >= 2 ИЛИ enough_data = True
- Когда собрана информация для полного анализа
6. ✅ ReportCompletion
- После создания отчета
- Финализация исследования
Соответствие концепту SGR верифицировало Ринатом 😂
Предлагайте ваши эксперименты! Вон даже ребята из Cбера подключились!
✍3🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
HeyGen выпустил обновление к системе цифровых двойников.
HeyGen Digital Twin теперь работает на основе Avatar IV и умеет:
✅ Зеркалировать жесты, выражения и манеры
✅ Подстраиваться под ваш сценарий, произнося каждую строку так, как это бы сделали именно вы
✅ Двигаться естественно, копируя ваш стиль движения и разговора.
#HeyGen #двойники #нейрорендер
———
@tsingular
HeyGen Digital Twin теперь работает на основе Avatar IV и умеет:
✅ Зеркалировать жесты, выражения и манеры
✅ Подстраиваться под ваш сценарий, произнося каждую строку так, как это бы сделали именно вы
✅ Двигаться естественно, копируя ваш стиль движения и разговора.
#HeyGen #двойники #нейрорендер
———
@tsingular
⚡3🔥3🤯3❤2