По слухам, которые появились из-за поста инженера DeepMind Патрика Лоебера в сети Х, на этой неделе мы увидим инпейнт-модель для редактирования изображений под названием Nano Banana.
Модель наделала шуму на Lmarena, да и тестеры предварительных версий отмечают способность вносить очень точечные изменения в изображение, не затрагивая другие его элементы.
При этом качество изображений, генерируемое Nano Banana сопоставимо с результатами более крупных и ресурсоемких систем.
Официально Google пока не объявляла дату запуска и не раскрывала информацию о ценах.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤57👍18🔥14😁5❤🔥1
Три округа во Флориде готовятся к испытаниям системы беспилотников, предназначенной для нейтрализации нападающих. Дроны, разработанные компанией Campus Guardian Angel, могут быть активированы в течение 5 секунд после сигнала тревоги и достигнуть стрелка за 15 сек.
Они оснащены шариками с перцовым спреем, чтобы ослепить или замедлить преступника, могут разбивать окна для отвлечения внимания и транслировать видео в реальном времени для правоохранителей.
По словам CEO компании, если это не поможет, дроны будут «продолжать таранить» нападающего до прибытия полиции.
Проект уже вызвал серьезные этические вопросы, касающиеся безопасности, но штат выделил на пилотный проект 557 тыс. долларов. Установка систем в школах запланирована на осень, а полноценный запуск — на январь.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍90❤25😁21🔥11🤔4🙈3👀1
Deep Think with Confidence (DeepConf) - способ улучшить рассуждения LLM, который в отличие от стандартного голосования по большинству, предлагает фильтровать варианты на лету, используя внутренние сигналы уверенности самой модели.
Идея в том, чтобы не ждать генерации полной цепочки рассуждений, а отслеживать её качество в реальном времени. Для этого придумали метрику "групповой уверенности" (group confidence) — усредненную уверенность модели на небольшом скользящем окне токенов.
Если эта метрика падает ниже определенного порога, генерация траектории рассуждения просто останавливается. Это позволяет отсекать низкокачественные цепочки на ранней стадии, экономя огромное количество токенов. При этом сам метод не требует дополнительного обучения или тюнинга гиперпараметров.
В офлайн-режиме, когда все варианты уже сгенерированы, он позволяет применять взвешенное голосование или фильтрацию. Вместо простого подсчета голосов, каждый ответ взвешивается по уверенности породившей его цепочки рассуждений.
Результаты на бенчмарке AIME 2025: для GPT-OSS-120B стандартное голосование по 512 вариантам (cons@512) даёт точность 97.0%. Взвешивание с фильтрацией по уверенности (DeepConf@512) поднимает эту планку до 99.9%, практически решая бенчмарк.
Здесь происходит та самая ранняя остановка генерации. Для GPT-OSS-120B на том же AIME 2025 DeepConf в агрессивной конфигурации
DeepConf-low
сокращает количество сгенерированных токенов на 84.7% по сравнению с полной генерацией 512 вариантов. При этом точность не только не падает, а даже немного растeт — с 97.1% до 97.9%. В более консервативном режиме,
DeepConf-high
, экономия токенов составляет 56.0%, а точность остается на уровне 97.0%. Схожие результаты наблюдаются и на моделях DeepSeek-8B и Qwen3-32B, где экономия токенов достигает 77.9% и 66.8% соответственно.Для оценки уверенности прогнали несколько метрик, но наиболее эффективными оказались те, что фокусируются на слабых местах в рассуждениях. Например, метрика Bottom 10% Group Confidence (средняя уверенность по 10% наименее уверенных групп токенов) и Tail Confidence (уверенность на последних токенах цепочки) оказались лучше, чем простое усреднение по всему трейсу.
Порог для ранней остановки определяется на лету для каждого нового промпта. Сначала генерируется небольшое количество "разогревочных" трасс, на основе которых вычисляется порог уверенности. Затем запускается основная генерация, и любой вариант, чья групповая уверенность падает ниже этого порога, немедленно останавливается.
@ai_machinelearning_big_data
#AI #ML #LLM #CoT #DEEPCONF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤42🔥17👍13🗿3
This media is not supported in your browser
VIEW IN TELEGRAM
- Высокая динамическая согласованность — модель генерирует плавную и устойчивую анимацию на протяжении всего видео
- Высокое качество аудио-видео синхронизации — точное соответствие мимики и артикуляции звуку
- Контроль движения и среды через текстовые промпты — возможно задавать жесты, эмоции, фон и поведение персонажа (например, человек «идёт по рельсам», «девочка поёт под дождём», «старик играет на пианино у моря»)
- Поддержка сложных сценариев — включая движение камеры, дождь, ветер, парашют, съёмку в движущемся поезде и другие кинематографические эффекты
🖼️ + 🎵 = 🎥
Wan2.2-S2V принимает на вход одно изображение и аудиофайл, а на выходе создаёт синхронизированное видео, соответствующее заданному промпту.
📊 По результатам тестов модель демонстрирует лучшие или близкие к лучшим показатели среди конкурентов:
- FID ↓ 15.66 — высокое качество видео
- EFID ↓ 0.283 — естественность выражения лица
- CSIM ↑ 0.677 — сохранение идентичности персонажа
- Хорошие результаты на SSIM, PSNR и Sync-C подтверждают визуальную чёткость, стабильность и аудиосинхронизацию
🔓 Проект полностью открытый — исходный код, веса модели.
И судя по всему, что модель совместима с LoRA-адаптерами от Wan 2.x
@ai_machinelearning_big_data
#AI #ML #Wan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥36❤15🏆3
Media is too big
VIEW IN TELEGRAM
InternVL 3.5 - набор мультимодальных моделей размером от 1 до 38 млрд. параметров, плюс варианты с архитектурой MoE на 241 млрд. Семейство показывает SOTA-результаты в работе с изображениями и текстом. По сравнению с предыдущей версией, производительность в логических задачах выросла на 16%, а скорость инференса - в 4 раза.
Такой прогресс - заслуга фреймворка Cascade Reinforcement Learning, который сочетает офлайн- и онлайн-обучение для улучшения способности модели к рассуждениям. Все модели InternVL3.5 доступны на Hugging Face под лицензией Apache 2.0.
huggingface.co
Apple провела внутренние обсуждения о возможном приобретении Mistral AI и Perplexity AI. Обсуждения находятся на ранней стадии и сталкиваются с внутренними разногласиями. Глава сервисного подразделения Эдди Кью является главным сторонником сделки, а вот руководитель разработки ПО Крейг Федериги предпочитает развивать ИИ-технологии внутри компании.
Покупка любой из этих компаний станет крупнейшей сделкой в истории Apple, значительно превысив приобретение Beats за 3 миллиарда долларов в 2014 году. Оценка Mistral составляет около 10 миллиардов, а Perplexity — от 14 до 18 миллиардов долларов.
Ситуацию осложняет неопределенность с многомиллиардным соглашением с Google, которое обеспечивает статус поисковика по умолчанию на iPhone.
theinformation.com
Google представила 2 крупных обновления для мобильного приложения Translate. Новый режим "Live translate" позволяет вести диалоги на более чем 70 языках, переводя речь и отображая текст на экране почти в реальном времени. Инструмент работает на моделях Gemini, умеет распознавать паузы, акценты и фоновый шум. Он уже доступен на iOS и Android в США, Индии и Мексике.
Вторая новинка - пилотная функция для практики языков. Она генерирует персонализированные упражнения на аудирование и говорение, основываясь на уровне и целях пользователя. Бета-версия доступна бесплатно и на старте поддерживает несколько языковых пар.
blog.google
Prefect открыла публичное бета-тестирование платформы FastMCP Cloud. Она позволяет разворачивать серверы, использующие протокол MCP из GitHub-репозитория менее чем за минуту. Сервис предоставляет безопасный и масштабируемый эндпоинт одним кликом, избавляя от необходимости настраивать хостинг и CI/CD-пайплайны.
FastMCP Cloud предлагает встроенную OAuth-аутентификацию, бессерверное автомасштабирование и аналитику. Платформа уже интегрирована с Claude, GPT и Cursor. Сервис бесплатен на время беты, а в будущем появится постоянный бесплатный тариф.
prefect.io
Лаборатория цифровой экономики Стэнфордского университета представила одни из первых статистических доказательств влияния ИИ на рынок труда. Анализ данных о заработной плате миллионов работников в США с конца 2022 по середину 2025 года показал, что занятость среди специалистов в возрасте от 22 до 25 лет в профессиях, наиболее подверженных влиянию генеративного ИИ, сократилась на 13%.
Потери в основном коснулись должностей начального уровня в разработке ПО и обслуживании клиентов, где ИИ способен полностью автоматизировать задачи. При этом занятость их старших коллег на тех же позициях осталась стабильной или даже выросла. Уровень заработной платы существенно не изменился, что говорит о том, что компании скорее сокращают наем, чем урезают зарплаты. В то же время, в профессиях, где ИИ дополняет, а не заменяет человека, сокращения рабочих мест не наблюдается.
stanford.edu
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38❤22💋3🤝2🔥1🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic запустила в режиме исследовательского превью ИИ-агента, который интегрируется в Chrome в виде расширения. Агент работает на базе Claude и позволяет общаться с чат-ботом в боковом окне, которое сохраняет контекст всего происходящего в браузере. Агент может выполнять некоторые задачи от имени пользователя, получив на это разрешение.
В Anthropic заверяют, что предусмотрели меры безопасности. Пользователи могут ограничить доступ агента к определенным сайтам, а по умолчанию уже заблокированы финансовые сервисы и ресурсы с NSFW контентом.
Перед выполнением "рискованных" действий, таких как публикация данных или совершение покупок, агент будет запрашивать разрешение.
Доступ к Claude for Chrome открыт для 1000 подписчиков тарифа Max. Для остальных желающих открыт лист ожидания.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61❤14🔥6🤬3🤷♂2🫡2🕊1
Проект OpenBMB выпустил MiniCPM-V 4.5, мультимодальную модель на основе Qwen3-8B и SigLIP2-400M для распознавания изображений, серий изображений и видео, которая может работать на мобильных устройствах на более чем 30 языках.
OpenBMB - некоммерческое подразделение китайской технологической компании ModelBest, под патронажем Университета Цинхуа.
Среди инвесторов материнской ModelBest - Habo (Huawei), Primavera Capital Group и государственный Shenzhen Guozhong Venture Capital Management.
Благодаря унифицированному 3D-Resampler модель сжимает видео в 96 раз: шесть кадров разрешением 448x448 преобразуются всего в 64 токена, тогда как большинству MLLM для этого потребовалось бы 1536 токенов.
Это позволяет обрабатывать видео с частотой кадров до 10 FPS и длинные ролики без роста вычислительных затрат, что подтверждается топовыми результатами на наборах Video-MME, LVBench и MLVU.
Архитектура LLaVA-UHD позволяет модели работать с изображениями до 1,8 мегапикселей и любым соотношением сторон, используя в 4 раза меньше визуальных токенов.
Модель предлагает гибкий режим работы: быстрый ризонинг для повседневных задач и глубокий для сложных сценариев, переключаемый по требованию.
При общем объеме в 8 млрд. параметров, MiniCPM-V 4.5 набирает 77.0 баллов по комплексному бенчу OpenCompass. Этот результат не просто улучшает предыдущие версии, модель превосходит GPT-4o-latest и Gemini-2.0 Pro, обходит открытую Qwen2.5-VL с 72 миллиардами параметров и устанавливает новый стандарт для общего MLLM на OmniDocBench.
Доступны варианты для CPU через llama.cpp и ollama, есть квантованные версии в форматах int4, GGUF и AWQ, поддержка бэкендов SGLang и vLLM, возможность дообучения через Transformers и LLaMA-Factory, а также WebUI и оптимизированное iOS-приложение.
@ai_machinelearning_big_data
#AI #ML #MMLM #MiniCPM #OpenBMB
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52👍16🔥14🍾2
Jet-Nemotron - новая архитектура языковых моделей, которая, по заявлениям NVIDIA, превосходит по эффективности топовые опенсорс-модели.
На H100 обещают ускорение пропускной способности при генерации до 53.6 раз, если работать с контекстом в 256 тыс. токенов и максимальным размером батча. Такой скачок производительности стал возможен благодаря двум ключевым инновациям: пайплайну PostNAS и новому блоку линейного внимания JetBlock.
Суть PostNAS состоит в отказе от дорогостоящего обучения новых архитектур с нуля. Вместо этого берут уже предварительно обученную модель и запускают процесс постобработки. Пайплайн сначала анализирует модель и определяет, какие слои внимания вносят наибольший вклад в её работу, а какие - не так уж и важны. Дальше он ищет оптимальное расположение для слоёв полного внимания и подбирает улучшенный дизайн для остальных блоков.
Его фишка - динамические сверточные ядра, генерируемые на лету в зависимости от входных данных и применяемые к value-токенам.
Прямое сравнение с Mamba2 Block, проведенное на идентичных данных и с одинаковыми параметрами обучения, показало существенный прирост в точности при сохранении той же пропускной способности во время обучения и инференса.
Вместо того чтобы использовать количество параметров в качестве прокси-метрики для эффективности, авторы напрямую оптимизируют архитектуру под целевое железо (H100), используя в качестве цели именно пропускную способность генерации.
Ключевое открытие тут в том, что размер KV-кэша, а не количество параметров, является критическим фактором, ограничивающим скорость генерации на длинных контекстах, поскольку декодирование упирается в пропускную способность памяти.
Фиксируя размер кэша, они провели поиск по размерности ключей/значений и числу голов внимания, обнаружив конфигурации, которые при том же объеме кэша и схожей пропускной способности используют больше параметров для достижения более высокой точности.
Итоговый дизайн Jet-Nemotron, построенный на базе Qwen 2.5, включает всего 2 full-attention слоя (для retrieval) и 2 слоя со скользящим вниманием (SWA, для MMLU), остальные — JetBlock.
Что касается конкретных моделей, то уже есть
Jet-Nemotron-2B
и Jet-Nemotron-4B
. По результатам тестов, они как минимум не уступают по точности ведущим эффективным моделям, например, Qwen3, на целом ряде бенчмарков. При этом младшая модель Jet-Nemotron-2B работает в 21 раз быстрее, чем Qwen3-1.7B-Base, а старшая, Jet-Nemotron-4B, обгоняет её уже в 47 раз. @ai_machinelearning_big_data
#AI #ML #LLM #NVIDIA #JetNemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54❤26🔥20💘2❤🔥1👏1
Media is too big
VIEW IN TELEGRAM
xAI выпустила модель Grok Code Fast 1, ориентированную на разработчиков и быстрое написание кода. Модель предлагает контекстное окно в 256 000 токенов при стоимости использования $0.20 за миллион входных токенов и $1.50 за миллион выходных.
Grok Code Fast 1 до 2 сентября доступна бесплатно в GitHub Copilot. Первые пользователи отмечают, что модель работает в несколько раз быстрее Claude Code и эффективно справляется с поиском и исправлением ошибок, хотя для лучших результатов требует детальных запросов.
github.blog
Правительство Китая опубликовало план "AI Plus", который ставит целью глубокую интеграцию ИИ практически во все сферы экономики. Документ призывает к усилению финансовой поддержки, строительству сверхбольших вычислительных кластеров и развитию отечественной экосистемы ИИ-чипов и ПО.
К 2027 году Пекин планирует внедрить ИИ более чем в 70% ключевых отраслей - от производства и здравоохранения до госуправления и потребительской электроники, а к 2030 году этот показатель должен превысить 90%. Дорожная карта предусматривает массовое распространение беспилотных автомобилей, роботов, ПК, смартфонов и носимых устройств до 2035 года.
На фоне этого, китайские производители чипов намерены в следующем году утроить национальное производство ИИ-ускорителей, чему будет способствовать запуск новых фабрик.
ft.com
ByteDance анонсировала Waver 1.0, модель для генерации из текста в видео, изображения в видео и текста в изображение. Система поддерживает разрешение до 1080p и длину роликов от 2 до 10 секунд. По заявлениям разработчиков, Waver отлично справляется со сложным движением и превосходит аналоги на бенчмарках Waver-Bench 1.0 и Hermes.
В основе Waver 1.0 - гибридная архитектура DiT и двух текстовых энкодеров: flan-t5-xxl и Qwen2.5-32B. Для генерации в 1080p используется отдельный компонент Waver-Refiner, который повышает разрешение с помощью диффузионного процесса. Для улучшения реализма на этапе инференса применяется технология APG, подавляющая артефакты.
Планы по публикации весов модели не заявлены, но попробовать Waver можно в Discord-сообществе.
waver.video
В рамках беспрецедентного сотрудничества OpenAI и Anthropic протестировали друг у друга модели, чтобы создать эталон для независимой оценки ИИ. Исследователи получили временный взаимный доступ к API-интерфейсам конкурирующих систем.
Результаты выявили взаимные профили рисков. Модели Claude Opus 4 и Sonnet 4 отказывались отвечать на вопросы, в которых были не уверены в 70% случаев. В то же время, модели OpenAI, o3 и o4-mini, пытались дать ответ гораздо чаще, но при этом генерировали больше галлюцинаций. Руководители обеих компаний согласились, что оптимальным был бы подход, сочетающий более частые отказы при неопределенности с меньшим количеством ложной информации.
Компании надеются повторить подобное перекрестное тестирование в будущем и призывают другие лаборатории присоединиться.
bloomberg.com
Исследователи из ESET выявили новый тип программы-вымогателя под названием PromptLock, который использует локально развернутую модель gpt-oss-20b от OpenAI для генерации уникальных вредоносных скриптов при каждом запуске.
Поскольку модель работает на зараженной машине через Ollama API, вирус не делает сетевых запросов для получения инструкций, что позволяет ему обходить традиционные системы обнаружения вторжений.
Анализ показал, что PromptLock способен похищать данные и шифровать файлы, а в будущих версиях, вероятно, сможет и полностью уничтожать информацию. Уже замечены версии для Windows и Linux, и, по мнению экспертов, адаптация под macOS не составит труда.
thehackernews.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤34👍23🔥7🤬3
Главный вывод из пятого ежегодного списка Top 100 AI Apps — экосистема ИИ начинает приходить в равновесие.
В веб-рейтинге появилось всего 11 новых имен, что заметно меньше, чем было мартовском отчете. В мобильном сегменте, напротив, новичков больше — целых 14, но это связано с тем, что App Store активно вычищают "клонов ChatGPT", освобождая место для оригинальных приложений.
Их флагманский ассистент Gemini занял 2 место после ChatGPT и в вебе, и на мобильных устройствах. Правда, разрыв пока существенный: в вебе Gemini набирает примерно 12% от трафика ChatGPT. А вот на мобильных платформах ситуация иная - у Gemini уже почти половина ежемесячно активных пользователей ChatGPT.
Интересная деталь: почти 90% мобильной аудитории Gemini сидит на Android, тогда как у ChatGPT доля Android-пользователей составляет 60%.
Помимо Gemini, в топ-10 ворвался Google AI Studio. Следом идeт NotebookLM на 13-м месте, а экспериментальная площадка Google Labs заняла 39-ю строчку, получив в мае 2025 года прирост трафика более чем на 13% после запуска видеомодели Veo 3.
Grok занял четвeртое место в вебе и 23-е на мобильных. Его мобильный рост особенно впечатляет: с нуля в конце 2024 года до более чем 20 миллионов MAU сейчас. В июле 2025 года, после релиза модели Grok 4, использование приложения подскочило почти на 40%.
У Марка Цукербкрга успехи скромнее: 46-е место в вебе и полное отсутствие в мобильном топе.
Perplexity продолжает уверенно расти, а вот Claude и DeepSeek показывают смешанные результаты. DeepSeek особенно сильно просел в вебе, потеряв более 40% трафика со своего пика в феврале 2025 года.
Сразу 3 компании, ориентированные на внутренний рынок, вошли в топ-20 веб-рейтинга: Quark от Alibaba (№9), Doubao от Bytedance (№12) и Kimi от Moonshot AI (№17). Более 75% их трафика приходится на Китай, где доступ к ChatGPT или Claude ограничен.
Ещё более поразительна картина на мобильных устройствах. По оценкам, 22 из 50 приложений в топе были разработаны в Китае, но используются преимущественно за его пределами. Особенно сильна их концентрация в категории "фото и видео": одна только компания Meitu представлена 5-ю продуктами, включая BeautyPlus и Wink. Bytedance также не отстаёт с ассистентами Doubao и Cici.
Это ChatGPT, Civitai, Poe, Perplexity, LeonardoAI, VEED, Gamma, QuiliBot, CutOut, Character AI, Midjourney, Photoroom, Eleven Labs и HuggingFace.
Из этой "звёздной" команды только 5 компаний разрабатывают собственные модели, 7 используют сторонние API или опенсорс-решения, а 2 являются агрегаторами моделей.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66❤26🔥9😁6🤔1
Нашёл простой и полезный ресурс: GitHub-репозиторий с 200+ бесплатными workflow для n8n.
Темы: продажи, маркетинг, учёт финансов, кодинг и личная продуктивность.
Что такое n8n
- Open-source инструмент для автоматизации без кода
- Визуальный конструктор: соединяете блоки и получаете процесс
- Есть сотни интеграций: почта, CRM, таблицы, мессенджеры, вебхуки
- Можно добавлять свою логику на JavaScript
- Запуск по расписанию или по событию, работает в облаке или на своём сервере
Как воспользоваться:
1) Скачайте нужный workflow (.json) и импортируйте в n8n
2) Вставьте свои API-ключи и учётные данные в блоки
3) Проверьте шаги и включите запуск по cron или webhook
▪ Github
Update - еще 300 готовых решений: https://github.com/kossakovsky/n8n-installer
@ai_machinelearning_big_data
#n8n #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤42👍17🥰5🔥3🤣3💋2
Media is too big
VIEW IN TELEGRAM
Корпорация анонсировала 2 новые модели, разработанные полностью внутри компании: MAI-Voice-1 для синтеза речи и большую языковую модель MAI-1-preview. Разработку возглавляет Мустафа Сулейман, сооснователь DeepMind, который теперь руководит подразделением Microsoft AI.
Модель MAI-Voice-1 может генерировать минуту высококачественного аудио менее чем за секунду на одном GPU. Она уже используется в некоторых функциях Copilot и доступна для тестирования разработчиками.
MAI-1-preview - первая собственная фундаментальная языковая модель Microsoft. Она уже проходит тестирование на LMArena, и в ближайшие недели ее начнут интегрировать в отдельные функции Copilot. Внешним разработчикам также предоставят ранний доступ.
microsoft.ai
Microsoft интегрировала Copilot в линейки Neo QLED, OLED и The Frame телевизоров и мониторов Samsung . Ассистент доступен через операционную систему Tizen в интерфейсе «Samsung Daily+» и активируется кнопкой микрофона на пульте.
Пользователи могут задавать вопросы, получать рекомендации и искать информацию о фильмах. Ответы предоставляются в виде голосовых реплик и визуальных карточек с изображениями и рейтингами. На экране появляется анимированный персонаж, синхронизирующий мимику с разговором. Функция бесплатна, но на старте доступна только в некоторых регионах.
microsoft.com
Google сделала Vids доступным для всех владельцев аккаунтов Google. Ранее инструмент был эксклюзивом для подписчиков Workspace. Бесплатная версия включает базовые шаблоны, доступ к стоковым медиа и часть ИИ-возможностей.
Одновременно с этим, подписчики Workspace и Google AI получили новые премиум-функции: image-to-video на базе Veo 3, фотореалистичные ИИ-аватары, способные зачитывать текст пользователя, и функция автоматической обрезки, которая убирает паузы и слова-паразиты из записанной речи. В будущем появятся функции шумоподавления и поддержка вертикальных форматов кадра.
workspace.google.com
Компания объявила о кардинальном изменении своей политики конфиденциальности. Теперь данные из чатов и сессий кодирования пользователей будут использоваться для обучения ИИ-моделей компании, а срок их хранения увеличится до 5 лет. Новые правила вступают в силу 28 сентября.
Изменение коснется всех потребительских тарифов Claude, включая бесплатный. При этом оно не затронет корпоративные и образовательные планы, а также использование через API. Пользователям будет предложено сделать выбор во всплывающем окне. Важно отметить, что опция, разрешающая использование данных, включена по умолчанию.
Хотя решение можно будет изменить в любой момент в настройках, это не будет иметь обратной силы для уже собранных данных.
anthropic.com
В Университете штата Флорида провели исследование 22 миллионов слов из подкастов и спонтанной речи и обнаружили статистически значимый рост употребления терминов, которые часто используют большие языковые модели, в частности, ChatGPT.
С момента публичного запуска чат-бота в конце 2022 года частота использования слов "surpass", "boast", "meticulous" и "strategically", выросла более чем вдвое. В то же время, частота их синонимов, не популярных у ИИ, не изменилась.
Исследователи отмечают, что впервые в новейшей истории лингвистики наблюдается столь быстрый и масштабный сдвиг в словарном запасе, вызванный нечеловеческим фактором.
news.fsu.edu
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
😁39❤23👍12🔥4💘2🤔1
Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи.
По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями.
Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face.
@ai_machinelearning_big_data
#AI #ML #ASR #OLMoASR #AI2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33❤12👍6🥰6
Media is too big
VIEW IN TELEGRAM
Разработкой занимается новое подразделение компании Марка Цукерберга Superintelligence Labs. Модель, которую некоторые внутри компании называют Llama 4.5, должна исправить недостатки предыдущих версий: слабую производительность в кодинге и логических рассуждениях. Параллельно команда работает над исправлением ошибок в уже выпущенных версиях Llama 4 и фоном допиливает флагманскую модель "Behemoth".
businessinsider.com
FastVLM - линейка ультрабыстрых VL-моделей с гибридным энкодером FastViTHD, который значительно сокращает количество визуальных токенов и ускоряет их обработку. В сравнении с LLaVA-1.5, FastVLM показала в 3.2 раза более быстрый TTFT при сопоставимой производительности, а с LLaVa-OneVision модель достигает аналогичных результатов на бенчмарках, используя в 3.4 раза меньший энкодер.
В семейство входят три модели размером 500 миллионов, 1.5 миллиарда и 7 миллиардов параметров. Все они уже доступны на Hugging Face для некоммерческого использования.
huggingface.co
Обновление принесло значительные улучшения в качестве движений, визуальной детализации, согласованности и точности исполнения текстовых запросов. Новая функция Agent позволяет создать 5–30-секундный ролик, просто загрузив одно фото.
Генерация видео в разрешении 360p занимает 5 секунд, а 1080p - около минуты. До 1 сентября 2025 года доступ к V5 предоставляется бесплатно. Модель работает через веб-интерфейс, мобильные приложения и API.
Pixverse в сети X
Интеграция позволяет разработчикам генерировать и рефакторить код, а также общаться с ИИ, не покидая редактор. Изменения применяются в реальном времени и могут быть проверены в интерфейсе, похожем на pull-request.
Gemini работает через открытый протокол Agent Client Protocol, созданный Zed для связи ИИ-агентов со средами разработки. Zed основан на Rust и позиционируется как открытая альтернатива Microsoft VS Code.
developers.googleblog.com
Исследователи из Университета Ваасы предложили дешевую и экологичную альтернативу электронным датчикам для контроля состояния продуктов. Технология основана на использовании функциональных чернил, которые меняют цвет при изменении температуры или влажности, а сверточные нейронные сети с высокой точностью распознают даже малейшие изменения, которые не улавливают традиционные методы машинного зрения. Это решает проблему своевременного обнаружения порчи или повреждений.
Такие индикаторы можно наносить прямо на упаковку вместе с обычными этикетками, что почти не увеличивает стоимость. Технология может найти применение в пищевой промышленности и в фармацевтике для отслеживания условий хранения продукции.
interestingengineering.com
xAI обвиняет Xuechen Li в краже технологий Grok и попытке передать их OpenAI.
Факты:
- Продал акции xAI на $7 млн и уволился.
- Скопировал секретные файлы Grok на личное хранилище.
- Удалял логи и признался письменно.
xAI требует: вернуть и удалить данные, запретить Li работать над ИИ в OpenAI и выплатить компенсацию.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57❤19🔥14
Официальный аккаунт Qwen в сети X (ex-Twitter) написал, что сентябрь обещает быть "потрясающим" и нам всем нужно готовиться к волне интересных событий.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥68👍19❤12🥰8