OmniAudio - мультимодальная модель с 2.6 млрд. параметров, объединяющая в себе Gemma-2-2b, Whisper turbo и специализированный проекционный модуль для обработки аудио и текста на потребительских устройствах. В отличие от традиционных подходов, использующих последовательное соединение моделей ASR и LLM, OmniAudio, объединяет эти функции в единой архитектуре, минимизируя задержку инференса и потребление ресурсов.
OmniAudio применима в сценариях голосовых запросов в автономном режиме, ведения диалогов, генерации контента, создания кратких обзоров записей и модификации интонации голоса.
Например, можно задать вопрос "Как развести костер без спичек?" и получить полезные инструкции, не имея подключения к Интернет. Модель может поддержать беседу, если вы скажете "У меня сегодня был тяжелый день на работе", или сгенерировать хайку на тему осенних листьев. OmniAudio способна преобразовать обычную голосовую заметку в формальное сообщение, сохраняя при этом основную идею.
OmniAudio обучалась в три этапа:
Производительность модели была протестирована на потребительском оборудовании. На Mac Mini M4 Pro модель Qwen2-Audio-7B-Instruct, работающая на Transformers, достигла скорости декодирования 6.38 токенов в секунду.
В то же время OmniAudio через Nexa SDK показала 35.23 токенов в секунду в формате FP16 GGUF и 66 токенов в секунду в квантованном формате Q4_K_M GGUF.
Модель опубликовала в 4 вариантах квантования в формате GGUF:
⚠️ Разработчик рекомендует локальный инференс в Nexa-SDK, опенсорс-фреймворке на основе GGLM, написанный на C++ для инференса моделей разных модальностей.
⚠️ В качестве ориентира по планированию ресурсов: для запуска OmniAudio версии
q4_K_M
требуется 1.30GB RAM.@ai_machinelearning_big_data
#AI #ML #OmniAudio #NexaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43❤7🔥4😢1💅1
Большая подборка примеров внедрения генеративного ИИ от ведущих компаний, правительств, исследовательских институтов и стартапов по всему миру. Они демонстрируют, как организации используют ИИ-агентов для повышения производительности, автоматизации процессов и улучшения клиентского опыта, что в итоге приводит к ощутимой отдаче от инвестиций.
@ai_machinelearning_big_data
#ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤17🥰6🔥2💅1
Fundan University совместно с Shanghai AI Laboratory составили дорожную карту, как повторить возможности модели o1 от OpenAI.
Главное – обучение с подкреплением, есть 4 важных условия, которые нужно сделать, чтобы добиться такого же уровня, как у o1:
Инициализация политики начинается с предварительного обучения LLM на больших текстовых датасетах. Они должны быть из разных областей и включать помимо классических задач NLP, примеры логического рассуждения, знаний о мире и демонстрировать паттерны навыка сравнения. Это позволит модели освоить базовое понимание языка и навыки рассуждения.
Последующая тонкая настройка на инструкциях преобразует модель из "предсказателя следующего токена" в полноценного агента, который может выполнять задачи. Тут важно добавить в процесс человекоподобных рассуждений через SFT или подсказки, чтобы научить модель исследовать пространство решений. Например, самооценке и самокоррекции, как это происходит у OpenAI o1.
Разработка вознаграждения дает модели четкую и понятную обратную связь не только в конце решения задачи, но и на промежуточных этапах. Правильно спроектированная система с использованием внутренних и внешних функций крайне важна, с ней модель учится лучше.
Поиск - решающий навык для генерации качественных решений на этапах обучения и тестирования. Использование методов Best-of-N, Beam Search, MCTS позволяет получить лучшие из возможных результатов. Например, MCTS подходит для более широкого исследования пространства решений.
Обучение использует данные, полученные в процессе поиска для улучшения политики модели. Чем больше параметров и объем поисковых данных - тем лучше производительность в итоге. По сути, обучение и поиск работают как "суперсила", способствуя развитию модели.
Выводы, сделанные в процессе исследования авторами сводятся к тому, что существующие открытые проекты, которые пытаются воспроизвести o1 - вариации такого метода обучения. Обучение с подкреплением - ключ к созданию "рассуждающей модели".
@ai_machinelearning_big_data
#AI #ML #LLM #Paper #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍25❤10🥱2🥰1
На стратегической встречи с сотрудниками компании Google, генеральный директор Сундар Пичаи отметил, что приоритетным направлением в следующем году станет масштабирование модели Gemini на потребительском рынке. Существует обеспокоенность, что продукт ChatGPT от компании OpenAI приобретает статус синонима ИИ, аналогично тому, как Google стал синонимом поисковых технологий.
searchengineland.com
Эксперты Стэнфордского института человеко-ориентированного ИИ (HAI) прогнозируют, что в 2025 году произойдет значительный сдвиг в сторону коллаборативных систем ИИ, где несколько специализированных агентов будут работать вместе, под управлением человека. Эксперты также отмечают замедление темпов улучшения крупных моделей и усиление скептицизма относительно их реальных преимуществ.
Ожидается увеличение количества мошенничеств с использованием генеративного ИИ. В США, вероятно, будет ослаблено регулирование в ИИ, при этом другие игроки - ЕС и отдельные штаты будут устанавливать собственные правила. Будут развиваться системы, где разные LLM с узкой специализацией будут взаимодействовать друг с другом для решения задач, при этом ведущую роль будет играть “генеральный подрядчик” LLM.
hai.stanford.edu
В первой половине 2025 г. компания планирует выпустить компактные компьютеры Jetson Thor, предназначенные для человекоподобных роботов. Nvidia стремится занять лидирующие позиции на рынке робототехники, полагая, что данный сегмент находится на пороге значительного роста. Компания ожидает усиления конкурентного давления со стороны AMD, Google и Amazon.
На текущий момент доходы от робототехники составляют относительно небольшую долю в общем объеме доходов Nvidia, где 88% приходится на доходы от центров обработки данных, составившие 35,1 миллиарда долларов в третьем квартале 2024.
pymnts.com
Zhiyuan Robotics опубликовала AgiBot World, большой набор данных, предназначенный для содействия развитию воплощенного интеллекта. Набор включает в себя более 80 различных навыков, охватывающих пять основных сфер применения: бытовые условия, общественное питание и промышленное производство. Датает создан на основе производственной и экспериментальной базы компании, площадь которой составляет более 4000 квадратных метров, с использованием 8 камер и манипуляторов с 6 степенями свободы.
AgiBot World содержит более 3000 реальных объектов, воспроизводящих условия, приближенные к реальным производственным и бытовым ситуациям. В набор данных входят как элементарные действия (захват и перемещение предметов) и более сложные операции (перемешивание, складывание и глажка). Zhiyuan Robotics планирует постепенное открытие доступа к десяткам миллионов единиц данных моделирования и выпуск базовой модели с полным комплексом инструментов для обучения, сбора и анализа данных.
agibot-world.com
В работе Кембриджского университета исследуется формирование новой "экономики намерений", основанной на анализе, прогнозировании и манипулировании намерениями людей с помощью ИИ-ассистентов, с последующей продажей данной информации заинтересованным компаниям. Данная модель позиционируется как преемник "экономики внимания", где социальные сети стремятся удерживать внимание пользователей с целью демонстрации рекламы.
В новой парадигме ИИ-компании будут продавать информацию о мотивациях пользователей, их планы и политические взгляды, заинтересованным сторонам. Согласно исследованию, LLM могут быть использованы для "предвосхищения и управления" поведением пользователей, основываясь на поведенческом анализе.
theguardian.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🔥10😨7❤6😁2🤣1
Noise_step - экспериментальный концепт аглоритма, который позволяет обучать модели, оперируя 1,58-битной (тернарной) точностью, что снижает потребление электроэнергии и сокращает вычислительные затраты.
Noise_step обходится без обратного распространения ошибки, а также может работать параллельно с инференсом и хранит тернарные значения в бинарном представление, которое позволяет упаковать 5 тернов в 1байт.
Алгоритм оценивает градиент, используя произведение Якобиана на вектор возмущения, которые генерируются с помощью распределения Бернулли и равномерного распределения {-1, +1}. Для оценки градиента нужен только знак выравнивания, а не его величина. Чтобы улучшить сходимость, Noise_step отбрасывает возмущения со слишком маленькой величиной выравнивания.
Векторы возмущений не надо хранить в памяти, поскольку они генерируются из начального сида. Это значит, что размер модели больше не зависит от количества параметров, а зависит от произведения шагов и возмущений.
Таким образом, модель можно представить как последовательность шагов, что кардинально уменьшает её размер. Теоретически, основываясь на расчетах, размер модели, подобной GPT-3 175B, можно уменьшить до 19MB.
Noise_step использует дискретные шаги из-за тернарного пространства, что добавляет шума в кривую обучения, но алгоритм сходится примерно как Adam, хотя и требует большего батч-сайза. Сходимость, аналогичная Adam, была подтверждена эмпирически на единственном прикладном эксперименте с простым MLP на наборе MINST и, очевидно, требует большей вариативности практических тестов.
Несмотря на то, что ранее тернарная точность уже была реализована в фреймворке Microsoft и модели Nous Research, которые не имеют таких ограничений, как в Noise_step , он может стать в будущем альтернативой квантованию и встать в один ряд с другими методами оптимизации обучения и инференса.
⚠️ Обучение трансформерных моделей с noise_step пока остается отрытым вопросом, так как для этого необходимо написать ядро, в котором шум будет виртуализирован (генерироваться по мере использования).
⚠️ Для больших моделей с большим количеством шагов реконструкция становится непрактичной, поскольку каждый вес должен обновляться с учетом каждого вектора возмущений на каждом шаге. Полная реконструкция тернарной модели с количеством параметров 175B, потребовала бы примерно 10 в 19 степени операций.
@ai_machinelearning_big_data
#AI #ML #NoiceStep #TernaryPresision
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46👍19❤9🥰2
VSI-Bench - видео-бенчмарк из 5130 пар "вопрос-ответ" основанных на 288 видеозаписях реальных сцен. Видеоматериалы были собраны из публичных датасетов ScanNet, ScanNet++ и ARKitScenes и содержат типы пространств: жилые помещения, офисы и производственные объекты.
Бенчмарк структурирован в виде 8 задач, классифицированных по трем категориям: конфигурационные, измерительные и пространственно-временные:
idx
- номер записи в датасете;dataset
- источник видео (датасет): scannet, arkitscenes or scannetpp;scene_name
- название видео;question_type
- тип вопроса;question
- вопрос;options
- варианты ответа на вопрос, если возможен множественный выбор;ground_truth
- правильный ответ на вопрос.Возможности VSI-Bench оценивались с 15 MLLM, поддерживающих видеоформат: Gemini-1.5, GPT-4o, InternVL2, ViLA, LongViLA, LongVA, LLaVA-OneVision и LLaVA-NeXT-Video.
Оценка проводилась в режиме zero-shot с применением стандартных запросов для каждой модели. В качестве метрик для задач с множественным выбором использовалась Accuracy (ACC), а для задач с числовыми ответами — Mean Relative Accuracy (MRA).
Результаты оценки показали, что, несмотря на достижение значительных результатов топовыми моделями, их производительность все еще уступает человеческой. Люди демонстрируют среднюю точность в 79%, в то время как MLLM с высшим результатом (Gemini-1.5 Pro) показывают более низкие показатели (48.8%).
Использование стандартных лингвистических техник: chain-of-thought, self-consistency и tree-of-thoughts не привели к улучшению результатов. Анализ ошибок выявил, что основная проблема для моделей - пространственное рассуждение, а не визуальное восприятие, NLP-навыки или обработка временных данных.
# Create conda env
conda create --name vsibench python=3.10
conda activate vsibench
# Clone repo
git clone [email protected]:vision-x-nyu/thinking-in-space.git
cd thinking-in-space
# Update submodules
git submodule update --init --recursive
# Install requirements
cd transformers && pip install -e . && cd ..
pip install -e .
pip install s2wrapper@git+https://github.com/bfshi/scaling_on_scales
pip install deepspeed
# Run all-in-one evaluation script
bash evaluate_all_in_one.sh --model all --num_processes 8 --benchmark vsibench
@ai_machinelearning_big_data
#AI #ML #MMLM #Benchmark #VSIBench
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤12✍7🔥3🤨1
NVIDIA-Ingest - это масштабируемый, ориентированный на высокую производительность микросервис для парсинга неструктурированных документов и метаданных очень большого размера.
Инструмент поддерживает PDF, Word и PowerPoint и использует специализированные микросервисы NVIDIA NIM для поиска, контекстуализации и извлечения текста, таблиц, диаграмм и изображений для использования в генеративных приложениях.
NVIDIA Ingest позволяет распараллелить процесс разбиения документов на страницы, где содержимое классифицируется (как таблицы, диаграммы, изображения, текст), извлекается в дискретный контент и далее контекстуализируется с помощью оптического распознавания символов (OCR) в четко определенную схему JSON.
После этого NVIDIA Ingest может опционально вычислением эмбедингов для извлеченного контента, а также опционально храненииь данные в векторной базе данных Milvus.
@ai_machinelearning_big_data
#NVIDIA #parsing #embedding
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍22❤8
RTX 5090 оказалась в 1,5 раза производительнее предыдущей версии RTX 4090! Более того, благодаря технологии DLSS 4, даже самая доступная модель RTX 5070 за $550 способна обеспечить производительность на уровне RTX 4090.
Мы все ожидали от RTX 5090, крутые характеристики и все такое. Но все ли поняли, что Дженсен сказал о графике?
Что новая карта использует нейронные сети для генерации 90+% пикселей в играх?
Традиционные алгоритмы трассировки лучей отрисовывают только ~10%, своего рода «скетч», а затем генеративная модель заполняет остальные мелкие детали. За один проход в режиме реального времени.
ИИ - это новый уровень графики, дамы и господа.
Цены и технические характеристики:
GeForce RTX 5090:
- Процессор: GB202-300
- CUDA-ядер: 21 760
- Память: 32 ГБ GDDR7 (1792 Гбайт/с)
- Шина: 512 бит
- Потребление энергии: 575 Вт
- Цена: $1999
GeForce RTX 5080:
- Процессор: GB203-400
- CUDA-ядер: 10 752
- Память: 16 ГБ GDDR7 (960 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 360 Вт
- Цена: $999
GeForce RTX 5070 Ti:
- Процессор: GB203-300
- CUDA-ядер: 8 960
- Память: 16 ГБ GDDR7 (896 Гбайт/с)
- Шина: 256 бит
- Потребление энергии: 300 Вт
- Цена: $749
GeForce RTX 5070:
- Процессор: GB205-300
- CUDA-ядер: 6 144
- Память: 12 ГБ GDDR7 (672 Гбайт/с)
- Шина: 192 бит
- Потребление энергии: 250 Вт
- Цена: $549
Продажи стартуют уже в этом месяце!
Еще NVIDIA анонсировали проект DIGITS — персональный суперкомпьютер на базе искусственного интеллекта стоимостью 3000 долларов, который настолько мал, что выглядит как Mac Mini, но при этом в 1000 раз мощнее среднестатистического ноутбука.
Обрабатывает модели ИИ с максимальным количеством параметров 200 МИЛЛИАРДОВ.
Это невероятно..
@ai_machinelearning_big_data
#nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍97🔥39❤22😢4🤬3👏2🤔1