Media is too big
VIEW IN TELEGRAM
VibeVoice - опенсорсная система синтеза речи на английском и китайском языках для создания выразительного аудиоконтента длиной до 90 минут с участием до 4 различных спикеров.
В системе используются непрерывные токенизаторы речи на сверхнизкой частоте 7.5 Гц и комбинация из LLM для понимания контекста и диффузионная модель для генерации высококачественного аудио.
Код для инференса уже доступен на GitHub, а модель на 1.5 млрд. параметров и токенизатор - на Hugging Face. Обещают более крупную (7B) и компактную (0.5B) версии модели.
microsoft.github.io
Теперь возможность превращать загруженные документы и заметки в короткие видеопрезентации доступна на 80 языках, включая русский. Ранее функция работала только на английском.
Одновременно компания улучшила и Audio Overviews, позволив создавать более длинные и детализированные аудиосводки на разных языках.
Оба обновления уже начали развертываться и, по заявлению Google, станут доступны всем пользователям по всему миру в течение недели.
blog.google
Jetson AGX Thor - наиболее производительный на сегодняшний день компьютер для периферийных ИИ-вычислений и робототехники. Платформа обещает производительность в 2070 терафлопс (FP4), что примерно в 7.5 раз превосходит предыдущее поколение Jetson Orin.
В основе системы - GPU на архитектуре Blackwell, 14-ядерный процессор Arm и 128 ГБ памяти LPDDR5X. Это позволяет запускать большие языковые и мультимодальные модели локально, обрабатывая данные с нескольких сенсоров с минимальной задержкой. Платформа совместима с программными стеками Nvidia: Isaac, Metropolis и Holoscan.
Набор для разработчиков уже доступен для заказа по цене $3499, а поставки начнутся в следующем месяце. Серийные модули Jetson T5000 для готовых роботов появятся в конце 2025 года по цене $2999 за штуку при заказе от 1000 единиц.
cnbc.com
xAI и X подали в федеральный суд США антимонопольный иск на сумму 1 млрд. долларов против Apple и OpenAI. В иске утверждается, что компании вступили в незаконный сговор с целью захвата рынков смартфонов и генеративного ИИ, нарушая антимонопольное законодательство США.
Согласно 61-страничному документу, эксклюзивная интеграция ChatGPT в iOS и манипуляции с ранжированием в App Store целенаправленно занижают позиции конкурирующих чат-ботов. Это, по мнению Маска, делает "невозможным для любой другой ИИ-компании, кроме OpenAI, достичь первого места в магазине приложений".
В Apple отказались от комментариев. В OpenAI назвали иск "продолжением систематических нападок со стороны господина Маска".
wsj.com
Проблема, по словам Brave, заключается в так называемых "непрямых инъекциях промптов". Злоумышленники могут встраивать вредоносные команды в веб-страницы, которые ИИ-ассистент Comet при анализе контента воспринимает как инструкции от пользователя.
В ходе тестов Brave продемонстрировала, как можно заставить Comet прочитать и отправить атакующим конфиденциальные данные, email-адреса и одноразовые пароли. Perplexity выпустила обновления, однако, проблема все еще не решена полностью.
brave.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤48👍19🔥6👀3🤔1
По слухам, которые появились из-за поста инженера DeepMind Патрика Лоебера в сети Х, на этой неделе мы увидим инпейнт-модель для редактирования изображений под названием Nano Banana.
Модель наделала шуму на Lmarena, да и тестеры предварительных версий отмечают способность вносить очень точечные изменения в изображение, не затрагивая другие его элементы.
При этом качество изображений, генерируемое Nano Banana сопоставимо с результатами более крупных и ресурсоемких систем.
Официально Google пока не объявляла дату запуска и не раскрывала информацию о ценах.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤58👍18🔥14😁5❤🔥1
Три округа во Флориде готовятся к испытаниям системы беспилотников, предназначенной для нейтрализации нападающих. Дроны, разработанные компанией Campus Guardian Angel, могут быть активированы в течение 5 секунд после сигнала тревоги и достигнуть стрелка за 15 сек.
Они оснащены шариками с перцовым спреем, чтобы ослепить или замедлить преступника, могут разбивать окна для отвлечения внимания и транслировать видео в реальном времени для правоохранителей.
По словам CEO компании, если это не поможет, дроны будут «продолжать таранить» нападающего до прибытия полиции.
Проект уже вызвал серьезные этические вопросы, касающиеся безопасности, но штат выделил на пилотный проект 557 тыс. долларов. Установка систем в школах запланирована на осень, а полноценный запуск — на январь.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91❤25😁21🔥11🤔4🙈3👀1
Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.
Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.
Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.
В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.
Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.
Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации
DeepConf-low
сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%. В более консервативном режиме,
DeepConf-high
, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.
Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.
@ai_machinelearning_big_data
#AI #ML #LLM #CoT #DEEPCONF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤44🔥18👍13🗿3
This media is not supported in your browser
VIEW IN TELEGRAM
- Высокая динамическая согласованность — модель генерирует плавную и устойчивую анимацию на протяжении всего видео
- Высокое качество аудио-видео синхронизации — точное соответствие мимики и артикуляции звуку
- Контроль движения и среды через текстовые промпты — возможно задавать жесты, эмоции, фон и поведение персонажа (например, человек «идёт по рельсам», «девочка поёт под дождём», «старик играет на пианино у моря»)
- Поддержка сложных сценариев — включая движение камеры, дождь, ветер, парашют, съёмку в движущемся поезде и другие кинематографические эффекты
🖼️ + 🎵 = 🎥
Wan2.2-S2V принимает на вход одно изображение и аудиофайл, а на выходе создаёт синхронизированное видео, соответствующее заданному промпту.
📊 По результатам тестов модель демонстрирует лучшие или близкие к лучшим показатели среди конкурентов:
- FID ↓ 15.66 — высокое качество видео
- EFID ↓ 0.283 — естественность выражения лица
- CSIM ↑ 0.677 — сохранение идентичности персонажа
- Хорошие результаты на SSIM, PSNR и Sync-C подтверждают визуальную чёткость, стабильность и аудиосинхронизацию
🔓 Проект полностью открытый — исходный код, веса модели.
И судя по всему, что модель совместима с LoRA-адаптерами от Wan 2.x
@ai_machinelearning_big_data
#AI #ML #Wan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67🔥36❤15🏆3🗿1
Media is too big
VIEW IN TELEGRAM
InternVL 3.5 - набор мультимодальных моделей размером от 1 до 38 млрд. параметров, плюс варианты с архитектурой MoE на 241 млрд. Семейство показывает SOTA-результаты в работе с изображениями и текстом. По сравнению с предыдущей версией, производительность в логических задачах выросла на 16%, а скорость инференса - в 4 раза.
Такой прогресс - заслуга фреймворка Cascade Reinforcement Learning, который сочетает офлайн- и онлайн-обучение для улучшения способности модели к рассуждениям. Все модели InternVL3.5 доступны на Hugging Face под лицензией Apache 2.0.
huggingface.co
Apple провела внутренние обсуждения о возможном приобретении Mistral AI и Perplexity AI. Обсуждения находятся на ранней стадии и сталкиваются с внутренними разногласиями. Глава сервисного подразделения Эдди Кью является главным сторонником сделки, а вот руководитель разработки ПО Крейг Федериги предпочитает развивать ИИ-технологии внутри компании.
Покупка любой из этих компаний станет крупнейшей сделкой в истории Apple, значительно превысив приобретение Beats за 3 миллиарда долларов в 2014 году. Оценка Mistral составляет около 10 миллиардов, а Perplexity — от 14 до 18 миллиардов долларов.
Ситуацию осложняет неопределенность с многомиллиардным соглашением с Google, которое обеспечивает статус поисковика по умолчанию на iPhone.
theinformation.com
Google представила 2 крупных обновления для мобильного приложения Translate. Новый режим "Live translate" позволяет вести диалоги на более чем 70 языках, переводя речь и отображая текст на экране почти в реальном времени. Инструмент работает на моделях Gemini, умеет распознавать паузы, акценты и фоновый шум. Он уже доступен на iOS и Android в США, Индии и Мексике.
Вторая новинка - пилотная функция для практики языков. Она генерирует персонализированные упражнения на аудирование и говорение, основываясь на уровне и целях пользователя. Бета-версия доступна бесплатно и на старте поддерживает несколько языковых пар.
blog.google
Prefect открыла публичное бета-тестирование платформы FastMCP Cloud. Она позволяет разворачивать серверы, использующие протокол MCP из GitHub-репозитория менее чем за минуту. Сервис предоставляет безопасный и масштабируемый эндпоинт одним кликом, избавляя от необходимости настраивать хостинг и CI/CD-пайплайны.
FastMCP Cloud предлагает встроенную OAuth-аутентификацию, бессерверное автомасштабирование и аналитику. Платформа уже интегрирована с Claude, GPT и Cursor. Сервис бесплатен на время беты, а в будущем появится постоянный бесплатный тариф.
prefect.io
Лаборатория цифровой экономики Стэнфордского университета представила одни из первых статистических доказательств влияния ИИ на рынок труда. Анализ данных о заработной плате миллионов работников в США с конца 2022 по середину 2025 года показал, что занятость среди специалистов в возрасте от 22 до 25 лет в профессиях, наиболее подверженных влиянию генеративного ИИ, сократилась на 13%.
Потери в основном коснулись должностей начального уровня в разработке ПО и обслуживании клиентов, где ИИ способен полностью автоматизировать задачи. При этом занятость их старших коллег на тех же позициях осталась стабильной или даже выросла. Уровень заработной платы существенно не изменился, что говорит о том, что компании скорее сокращают наем, чем урезают зарплаты. В то же время, в профессиях, где ИИ дополняет, а не заменяет человека, сокращения рабочих мест не наблюдается.
stanford.edu
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40❤22💋3🤝2🔥1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic запустила в режиме исследовательского превью ИИ-агента, который интегрируется в Chrome в виде расширения. Агент работает на базе Claude и позволяет общаться с чат-ботом в боковом окне, которое сохраняет контекст всего происходящего в браузере. Агент может выполнять некоторые задачи от имени пользователя, получив на это разрешение.
В Anthropic заверяют, что предусмотрели меры безопасности. Пользователи могут ограничить доступ агента к определенным сайтам, а по умолчанию уже заблокированы финансовые сервисы и ресурсы с NSFW контентом.
Перед выполнением "рискованных" действий, таких как публикация данных или совершение покупок, агент будет запрашивать разрешение.
Доступ к Claude for Chrome открыт для 1000 подписчиков тарифа Max. Для остальных желающих открыт лист ожидания.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62❤14🔥6🤬3🤷♂2🕊2🫡2🤔1🥱1