Media is too big
VIEW IN TELEGRAM
ОАЭ сделали искусственный интеллект обязательным предметом для всех учащихся — от детского сада до 12 класса. Это часть стратегии, которая должна превратить страну в ведущий центр ИИ-разработок на Ближнем Востоке. Уже с 2025-26 учебного года в государственных школах начнут преподавать основы ИИ, включая этические аспекты и реальное применение технологий.
Параллельно страна активно внедряет ИИ в госуправление: разрабатывает систему для автоматического анализа и обновления законов. Эксперты прогнозируют, что к 2030 году ИИ добавит $96 млрд к ВВП ОАЭ. Сейчас страна лидирует в своем регионе по технологическому развитию, и такие проекты только укрепят ее позиции в будущем.
bloomberg.com
OpenAI объявила о смене корпоративной структуры: теперь коммерческое направление будет работать как Public Benefit Corporation (PBC), но под полным контролем некоммерческой организации. Это решение отменяет предыдущие планы по полному переходу в коммерческий сектор. Основная цель — сохранить миссию компании: развитие искусственного интеллекта на благо всего человечества, а не ради прибыли акционеров.
Как объяснил CEO Сэм Альтман в письме сотрудникам, OpenAI изначально создавалась как некоммерческая организация, и этот принцип останется неизменным. Новая структура позволит привлекать сотни миллиардов долларов для развития ИИ, делая технологии доступнее.
Решение о реструктуризации было принято после консультаций с юристами и общественными деятелями. OpenAI также планирует усилить работу в области безопасности ИИ и открыть доступ к мощным моделям.
openai.com
Tether, крупнейший эмитент стейблкоинов, готовит запуск открытой ИИ-платформы. Как сообщил CEO Паоло Ардоино в соцсетях, система будет работать на любом устройстве без API-ключей и централизованных узлов, принимая платежи в биткоинах и USDT. Это решение может стать альтернативой для регионов с ограниченным доступом к фиатным банкам. Пока детали ИИ-платформы раскрыты частично, но цель амбициозна: проект планирует интеграцию криптовалют в повседневные технологии.
Параллельно Tether планирует выпустить новый стейблкоин, привязанный к доллару, для рынка США — при условии одобрения закона GENIUS Act.
pymnts.com
Anthropic анонсировала новую инициативу "AI for Science", которая поможет ускорить научные исследования через предоставление бесплатных API-кредитов. Программа ориентирована на биологию и науки о жизни.
Участвовать могут исследователи из научных учреждений. Заявки отберут по потенциалу проекта, его влиянию и роли ИИ в ускорении работы. Приоритет получат работы по геномике или борьбе с крупными заболеваниями. Податься можно через специальную форму, а решения будет принимать команда Anthropic с привлечением экспертов.
anthropic.com
Концепция Societal AI — это подход к разработке ИИ, который учитывает влияние технологий на общество. Основная цель: создание систем, отвечающих потребностям здравоохранения, образования и госуслуг, а также минимизация рисков вроде поляризации мнений.
Проект выделяет 3 принципа: гармония (снижение конфликтов), синергия (усиление человеческих возможностей) и устойчивость (адаптивность к изменениям). Особое внимание уделено 10 ключевым вопросам от этического выравнивания ИИ до трансформации труда и регуляторных рамок. Подробности — в полной версии документа.
microsoft.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍77🔥29❤21🤣5😐3😁2🗿2👌1🫡1
This media is not supported in your browser
VIEW IN TELEGRAM
Все, что видит робот, он видит впервые.
🧪 В экспериментах Робот успешно справился с уборкой посуды, застиланием постели и мытьем пола в незнакомых домах, демонстрируя полное понимание задачи, её разбиение на шаги и адаптацию к новым условиям.
Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний
@ai_machinelearning_big_data
#robots #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤127👍67🔥46🥰7🍓4😁1
NeMo-Inspector от NVIDIA — это инструмент, который превращает анализ генераций из рутины в осмысленный процесс. Он не просто показывает результаты, а помогает их систематизировать, сравнивать и даже чистить данные.
NeMo-Inspector не просто просмотрщик логов. Это полноценная среда, где можно менять промпты на лету, маркировать проблемные данные и проверять гипотезы.
Для инженеров, которые хотят не просто получать ответы от LLM, но и понимать, как они рождаются, NeMo-Inspector мастхэв. Он не даст магии, зато сэкономит часы ручного разбора и поможет найти слабые места даже в сложных пайплайнах, а поддержка Markdown, LaTeX и подсветки синтаксиса сделает работу с математическими задачами или кодом менее муторной.
Гибкость проводимого анализа - особенность NeMo-Inspector. Вы можете сравнивать, как одна модель справляется с разными параметрами (температура, top_p) или как разные модели решают одну задачу. Допустим, проверяете, повышает ли CoT точность ответов. NeMo-Inspector выведет результаты бок о бок, а еще посчитает статистику: доля правильных ответов, «уверенность» модели (persistence) или кастомные метрики, которые можно задать самостоятельно через Python-функции.
Из практических кейсов: NeMo-Inspector помог «почистить» синтетический датасет GSM-Plus, где 46,99% данных оказались проблемными (в некоторых вопросах было по два знака вопроса — модель путалась, на какой отвечать). В проекте с OpenMath-Mistral-7B выяснилось, что 26% ошибок связаны с падением качества сгенерированного кода. После доработки датасета точность модели выросла на 4,17%.
@ai_machinelearning_big_data
#AI #ML #LLM #NeMoInspector #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43❤28🔥13🍓4
Voila — семейство голосовых языковых моделей с поддержкой 6 языков (английский, китайский, французский, немецкий, японский и корейский), которое амбициозно позиционирует себя как конкурентов Siri или Alexa.
Классические системы используют конвейер из модулей: ASR, обработка текста LLM и затем TTS. Этот пайплайн порождает задержки до нескольких секунд, теряет эмоции и тон голоса. Voila обрабатывает аудио напрямую через end-to-end архитектуру. Модель делит звук на семантические и акустические токены, сохраняя нюансы акцента и интонации, а кастомное LLM-ядро отвечает за осмысленные ответы. В архитектуре Voila задержка составляет всего 300 мс — как у человека.
В тестах на собственном бенчмарке в задачах ASR Voila показала уровень ошибок (WER) 2,7% против 5,7% (Moshi), 3,6% (FastConformer). Для TTS ее аудио настолько естественно, что система ошибается в расшифровке всего в 2,8% случаев (7,7 у YourTTS, 4,7 у Moshi).
@ai_machinelearning_big_data
#AI #ML #ASR #TTS #VOILA #Matrix
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60❤31🥰12🔥7😁4
Media is too big
VIEW IN TELEGRAM
В приложении Google для iOS появилась новая функция Simplify, которая с помощью ИИ делает сложные или технические тексты в интернете проще для понимания. Разработка использует модель Gemini от Google Research: она переформулирует контент, сохраняя ключевые детали, но убирая лишнюю сложность. Тесты показали, что после упрощения пользователи лучше усваивают информацию. Функция не только облегчает обучение, но и удерживает пользователей в экосистеме Google, конкурируя с ChatGPT. Обновление уже доступно в AppStore для iOS.
9to5google.com
Google досрочно выпустила обновлённую версию Gemini 2.5 Pro Preview. Модель теперь лидирует в рейтинге WebDev Arena благодаря способности создавать эстетичные и функциональные веб-приложения.
Среди новшеств — продвинутая работа с видео: модель преобразует ролики в интерактивные приложения, например, учебные программы на базе YouTube-видео. Для фронтенд-разработчиков упростилась реализация фич: Gemini 2.5 Pro генерирует CSS-код, подбирая стили под дизайн, и даже создает анимации. Обновление также устраняет прошлые ошибки в вызове функций и повышает их срабатывание. Модель доступна через Gemini API в Google AI Studio и Vertex AI для корпоративных клиентов — цена осталась прежней.
developers.googleblog.com
OpenAI договорилась о покупке Windsurf за $3 млрд. Это станет крупнейшей сделкой компании в условиях растущей конкуренции на рынке ИИ-инструментов для программистов. По данным источников, соглашение ещё не закрыто, а стороны пока отказались от комментариев.
Этим шагом OpenAI стремится закрепиться в нише, где набирают обороты стартапы вроде Anysphere. Покупка Windsurf не только расширит ее инструментарий, но и даст преимущество в гонке за лидерство в создании систем, генерирующих код по текстовым запросам.
bloomberg.com
LTX Studio представила новую модель для генерации видео, которая сочетает скорость, детализацию и контроль. Свыше 13 млрд. параметров и технология multiscale rendering позволяют добиться плавного движения, четкой картинки и минимума артефактов даже в динамичных сценах.
Суть multiscale rendering — анализ сцены на разных уровнях детализации, который сохраняет крупные объекты стабильными, не теряя мелких элементов. Результат: реалистичная анимация и согласованность между кадрами.
Модель работает до 30 раз быстрее аналогов при том же качестве и позволяет управлять ключевыми кадрами и камерой — можно буквально «режиссировать» каждый момент. Она доступна бесплатно на платформе LTX Studio или для локального инференса, веса опубликованы на HuggingFace.
LTX в сети Х (ex-Twitter)
ComfyUI выпустила масштабное обновление. Теперь пользователи получают 65 готовых API-нод, которые позволяют подключать платные облачные модели — от Veo2 от Google до GPT4o от OpenAI. Обновление объединяет 11 семейств моделей, включая генерацию видео (Pika 2.2, MiniMax) и изображений (Stable Diffusion 3.5, Ideogram V3).
Цены совпадают с оригинальными API, а платформа остается бесплатной и открытой. В планах — поддержка своих API-ключей, параллельное выполнение задач и оптимизация для видео. Вместе с этим ComfyUI обновила внешний вид: логотип из «кубиков» отсылает к графам воркфлоу, а яркие цвета подчеркивают баланс между творчеством и серьезностью инструмента.
blog.comfy.org
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62❤22🔥12🥰5
NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.
Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.
В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.
TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.
Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.
Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025.
Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений.
Модель поддерживает форматы
.wav
и .flac
с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи.@ai_machinelearning_big_data
#AI #ML #ASR #Parakeet #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56❤27🔥21
🚀 Релиз: Mistral Medium 3
Компания Mistral представила Mistral Medium 3 — обновлённую версию своей модели среднего размера, созданную с упором на баланс качества, скорости и гибкости.
Mistral Medium 3 обеспечивает топовую производительность, оставаясь на порядок дешевле конкурентов.
Например, модель работает на уровне или обходит Claude Sonnet 3.7 на большинстве бенчмарков при значительно более низкой цене ($0.4 за 1M токенов входа / $2 за 1M токенов выхода).
По производительности Mistral Medium 3 также опережает ведущие открытые модели, такие как Llama 4 Maverick, и корпоративные решения вроде Cohere Command A. По стоимости модель выигрывает у лидеров по цене, например, DeepSeek v3 — как при использовании API, так и при самостоятельном размещении.
Mistral Medium 3 выделяется в задачах программирования и STEM, где она приближается по качеству к значительно более крупным и медленным моделям-конкурентам.
Кроме того, Mistral Medium 3 можно развернуть в любом облаке, включая self-hosted окружения от четырёх GPU и выше.
https://mistral.ai/news/mistral-medium-3
@ai_machinelearning_big_data
#Mistral #AI #нейросети #новости #mistralmedium3 #opensourcemodel #генерациякода #AIразработка
Компания Mistral представила Mistral Medium 3 — обновлённую версию своей модели среднего размера, созданную с упором на баланс качества, скорости и гибкости.
Mistral Medium 3 обеспечивает топовую производительность, оставаясь на порядок дешевле конкурентов.
Например, модель работает на уровне или обходит Claude Sonnet 3.7 на большинстве бенчмарков при значительно более низкой цене ($0.4 за 1M токенов входа / $2 за 1M токенов выхода).
По производительности Mistral Medium 3 также опережает ведущие открытые модели, такие как Llama 4 Maverick, и корпоративные решения вроде Cohere Command A. По стоимости модель выигрывает у лидеров по цене, например, DeepSeek v3 — как при использовании API, так и при самостоятельном размещении.
Mistral Medium 3 выделяется в задачах программирования и STEM, где она приближается по качеству к значительно более крупным и медленным моделям-конкурентам.
Кроме того, Mistral Medium 3 можно развернуть в любом облаке, включая self-hosted окружения от четырёх GPU и выше.
https://mistral.ai/news/mistral-medium-3
@ai_machinelearning_big_data
#Mistral #AI #нейросети #новости #mistralmedium3 #opensourcemodel #генерациякода #AIразработка
❤52👍26🔥17🥱6😁3
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 В Калифорнии открылся ресторан, где роботы готовят бургеры за 27 секунд
Роботы идеально подходят для рутинной и однообразной работы, автоматизируя повторяющиеся задачи с высокой эффективностью.
@ai_machinelearning_big_data
#роботы #автоматизация #технологии
Роботы идеально подходят для рутинной и однообразной работы, автоматизируя повторяющиеся задачи с высокой эффективностью.
@ai_machinelearning_big_data
#роботы #автоматизация #технологии
👍129❤25🥱18🔥14💯4
Media is too big
VIEW IN TELEGRAM
IBM представила новый мейнфрейм IBM Linux ONE Emperor 5. Основа системы — процессор Telum II с 5-нм технологией Samsung: 8 ядер на 5.5 ГГц, кэш L4 до 2.88 ГБ и встроенный ИИ-ускоритель на 24 трлн. операций в секунду. Для тех, кому мало, к концу 2025 года обещают IBM Spyre Accelerator с 32 ядрами.
Платформа оптимизирована под ИИ: AI Toolkit упростит разработку, а ОС Red Hat OpenShift AI позволит управлять VM и контейнерами в одном интерфейсе. Безопасность тоже не забыли. Данные шифруются даже в памяти (confidential computing), а поддержка постквантовых алгоритмов NIST защитит от атак будущего. IBM заявляет, что Emperor 5 сократит для владельцев совокупную стоимость владения на 44% за 5 лет по сравнению с x86-серверами. Система обещает доступность 99.999999% — почти без простоев.
zdnet.com
Figma Sites, в нем на основе прототипов можно генерировать адаптивные сайты с анимациями. Инструмент позволяет быстро публиковать проекты, а правки вносить без сохранения, контент можно редактировать совместно напрямую в интерфейсе. Для сложных элементов доступна генерация кода или ручная настройка. Figma Make — инструмент для прототипирования веб-приложений: по описанию ИИ создает каркас, который команда может дорабатывать.
Figma Buzz: шаблоны с бренд-ассетами, массовая генерация креативов из таблиц и ИИ-фоны для изображений. Обновленный Figma Draw теперь включает продвинутое векторное редактирование — кисти и текстуры. Все инструменты доступны в рамках подписки от 8$/месяц.
figma.com
Согласно исследованию Amazon, 60% организаций уже имеют Chief AI Officer (CAIO), а еще 26% планируют создать эту роль к 2026 году. CAIO станет ключевым звеном в координации ИИ-стратегий на фоне интереса к генеративному ИИ: 45% компаний назвали его приоритетом на 2025 год, обогнав традиционные инструменты кибербезопасности (30%).
Несмотря на активные эксперименты (90% компаний тестируют ИИ), только 44% перешли к полноценному внедрению. Главные барьеры — дефицит кадров (55%), высокая стоимость разработки (48%) и проблемы с качеством данных. При этом 92% организаций намерены усиленно нанимать специалистов по ИИ в 2025 году, а 56% уже запустили программы обучения.
Однако лишь 14% компаний имеют четкий план цифровой трансформации — к 2026 году показатель вырастет до 76%, но четверть все еще останется без стратегии.
amazon.com
Свежие данные Similarweb показывают, что ChatGPT стал одним из самых посещаемых сайтов в мире — в апреле 2025 года на него пришлось 4,78 млрд визитов. Это на 18% больше, чем у сети X. При этом трафик сервиса резко падает по выходным: в будни активность выше на 50%. Это подтверждает, что инструментом в основном пользуются для работы, учебы и исследований.
Техническая сторона тоже отражает тренд: на выходных API OpenAI обрабатывает запросы быстрее из-за снижения нагрузки. Интересно, что пользователи ChatGPT редко переключаются на другие ИИ-сервисы — только 4% из них пробуют Perplexity. Для сравнения: 86% аудитории Claude параллельно используют ChatGPT. Google Gemini хотя и набирает популярность, особенно на Android, он все еще уступает ChatGPT по лояльности и охвату.
SimilarWeb в сети X(ex-Twitter)
OpenAI анонсировала программу "OpenAI for Countries" в рамках проекта Stargate — масштабного плана по развитию ИИ-инфраструктуры. Компания предлагает странам за пределами США присоединиться к созданию локальных дата-центров, обеспечивающих суверенитет данных и адаптацию ИИ под национальные нужды. Инициатива включает кастомизацию ChatGPT для здравоохранения, образования и госуслуг с учетом языковых и культурных особенностей. Участие в проекте подразумевает вклад в глобальную сеть Stargate. Первая фаза — 10 пилотных проектов с отдельными странами. Переговоры с заинтересованными государствами уже ведутся через представительства компании.
openai.com
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59❤22🔥16🤔7👌2
Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением.
Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий.
Тестовую модель обучали в 3 стадии:
Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации.
@ai_machinelearning_big_data
#AI #ML #MMLM #CoT #UnifiedReward #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58❤24🔥16👏7
Media is too big
VIEW IN TELEGRAM
OpenAI привлекла Фи́джи Симо, CEO Instacart, на роль главы направления приложений. Она будет курировать интеграцию исследований в реальные продукты, подчиняясь напрямую Сэму Альтману. Симо, ранее входившая в совет директоров OpenAI, известна успешным IPO Instacart и опытом управления продуктами в компании Марка Цукерберга. Ее задача в OpenAI - масштабировать бизнес-процессы компании на фоне роста и реструктуризации.
В OpenAI ожидают, что Симо поможет укрепить связь между фундаментальными разработками и их практическим применением. Альтман теперь сосредоточится на исследованиях, вычислительных системах и безопасности ИИ. Симо останется в Instacart до конца переходного периода, после чего полностью перейдет в OpenAI.
cnbc.com
Anthropic запустила API, позволяющий моделям Claude искать информацию в интернете. Теперь разработчики смогут встраивать в приложения актуальные данные без собственной поисковой инфраструктуры. Система анализирует запросы: если нужны свежие сведения, Claude формирует поисковый запрос, обрабатывает результаты и выдаёт ответ с цитатами, уточняя вопросы на основе предыдущих находок.
В API доступна настройка доменов для поиска, блокировка нежелательных источников и управление доступом на уровне организации. Например, можно разрешить Claude сканировать только корпоративные ресурсы или научные базы. API работает с Claude 3.5 Sonnet, 3.7 Sonnet и 3.5 Haiku, а цена стартует от $10 за 1000 запросов.
anthropic.com
Google анонсировала автоматическую функцию кэширования для Gemini API, которая обещает сократить расходы разработчиков на использование моделей Gemini 2.5 Pro и 2.5 Flash. В отличие от явного кэширования, где приходится вручную задавать частые запросы, новая система сама определяет повторяющиеся данные (общие префиксы в промптах) и экономит до 75% затрат на обработку. Минимум для срабатывания: 1024 токена в Gemini 2.5 Flash и 2048 в Pro (1 токен ≈ 0,75 слова для английского языка).
Google советует размещать повторяющийся контекст в начале запросов, а динамические данные - в конце, чтобы повысить шансы попадания в кэш. Однако, компания не предоставила независимых подтверждений заявленной экономии, а значит, реальная эффективность станет ясна после тестов ранними пользователями. Если обещания сбудутся, неявное кэширование может стать серьезным шагом в снижении стоимости работы с ИИ, особенно для проектов с шаблонными задачами.
developers.googleblog.com
Инженеры MIT представили роботизированную руку, которая играет в настольный теннис на уровне профессионалов. Устройство использует 5 суставов для контроля ракетки и оснащено камерами, данные с которых обрабатываются алгоритмами реального времени на 3 компьютерах. Система предсказывает траекторию мяча за доли секунды и наносит удары со скоростью до 19 м/с. В тестах робот успешно отразил 88% подач, включая топспины, прямые удары и подрезки - это выше, чем у предыдущих аналогов.
Сейчас робот «работает» в фиксированной зоне стола, но в планах - установить его на мобильную платформу для расширения зоны действия. Проект будет представлен на конференции ICRA.
interestingengineering.com
Infinix AI Buds работают на собственном ИИ-движке CogLabs: режимы «Перевод диалогов» и «Синхронный перевод» упрощают общение на разных языках, а функция транскрибации превращает речь в текст. Технология шумоподавления (до 45 дБ) адаптируется к окружению, а прозрачный кейс с сенсорным экраном позволяет управлять музыкой и настройками без смартфона. Батарея держит до 36 часов работы (без шумодава), а грядущее обновление добавит голосового помощника Folax для управления через голос.
Наушники уже доступны на Indiegogo по цене от $79. Ранние покупатели получат их первыми.
prnewswire.co.uk
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥21❤14😁5
Tencent выпустила HunyuanCustom, фреймворк, который не только генерирует видео по заданным условиям, но и умеет сохранять консистентность субъектов, будь то человек, животное или предмет. Модель справляется даже с мультисубъектными сценами: в демо-роликах люди естественно взаимодействуют с предметами, а текст на упаковках не плывет между кадрами.
В основе модели лежит улучшенный механизм слияния текста и изображений через LLaVA. Например, если вы загружаете фото женщины в платье и текст «танцует под дождем», система анализирует оба инпута, связывая описание с визуальными деталями.
Но главное - это модуль временной конкатенации: он «растягивает» особенности изображения вдоль временной оси видео, используя 3D-VAE. Это помогает избежать «прыгающих» лиц или внезапных изменений фона, проблемы, которая характерна даже для топовых моделей видеогенерации.
Tencent переработали и пайплайн аудио. Для синхронизации звука с движениями губ или действиями в кадре HunyuanCustom использует AudioNet, модуль, который выравнивает аудио- и видеофичи через пространственное кросс-внимание.
Фреймворк поддерживает возможность замены объекта в готовом ролике (скажем, подставить новую модель кроссовок в рекламу), модель сжимает исходное видео в латентное пространство, выравнивает его с шумными данными и встраивает изменения без артефактов на границах.
Экспериментальные тесты показали, что HunyuanCustom обходит конкурентов по ключевым метрикам. Например, Face-Sim (сохранение идентичности лица) у Tencent — 0.627 против 0.526 у Hailuo, а с Keling, Vidu, Pika и Skyreels разрыв еще больше.
⚠️ Для работы модель требует минимум 24 ГБ видеопамяти для роликов 720p, но чтобы раскрыть все возможности, разработчики рекомендуют 80 ГБ VRAM.
Код и чекпоинты уже доступны в открытом доступе, а в репозитории есть примеры запуска как на нескольких GPU, так и в экономном режиме для потребительских видеокарт.
@ai_machinelearning_big_data
#AI #ML #Video #HunyuanCustom #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61❤16🔥10🥰5🤨2