This media is not supported in your browser
VIEW IN TELEGRAM
OmniAudio-2.6B
Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках
Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах
Репозиторий
Демо
#ALM #assistant #mobile
Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках
Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах
Репозиторий
Демо
#ALM #assistant #mobile
👍8🔥4❤2
Step-Audio
Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем.
130B параметров основной модели.
Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step-Audio-Tokenizer
Есть какой-то контроль эмоций голоса, диалектов и вокальных стилей, но нет сайта проекта. Судя по примеру с replicate, немножко даже пытается читать рэп.
Полного списка языков не нашел, указано что есть английский, китайский, японский
Step-Audio-TTS-3b на Replicate
Веса
Гитхаб
AppStore - есть приложение, там все на китайском. Можно залогиниться по российксой симке, но чат работает и без этого. Даже на русском. Подключен DeepSeek R1. Но где там голосовой режим я не нашел
#ALM #voicechat #assistant #iOS
Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем.
130B параметров основной модели.
Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step-Audio-Tokenizer
Есть какой-то контроль эмоций голоса, диалектов и вокальных стилей, но нет сайта проекта. Судя по примеру с replicate, немножко даже пытается читать рэп.
Полного списка языков не нашел, указано что есть английский, китайский, японский
Step-Audio-TTS-3b на Replicate
Веса
Гитхаб
AppStore - есть приложение, там все на китайском. Можно залогиниться по российксой симке, но чат работает и без этого. Даже на русском. Подключен DeepSeek R1. Но где там голосовой режим я не нашел
#ALM #voicechat #assistant #iOS
👍4
Нейронавт | Нейросети в творчестве
Step-Audio Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем. 130B параметров основной модели. Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step…
Появился демоспейс Step Audio Chat от stepfun
В демо доступны английский и китайский языки. Рилтайма нет. Записываете свой вопрос через микрофон - жмете кнопку - получаете ответ
Напоминаю, у модели есть контроль эмоций голоса, диалектов и вокальных стилей, попробуйте получить это от нее
Демо
#ALM #voicechat
В демо доступны английский и китайский языки. Рилтайма нет. Записываете свой вопрос через микрофон - жмете кнопку - получаете ответ
Напоминаю, у модели есть контроль эмоций голоса, диалектов и вокальных стилей, попробуйте получить это от нее
Демо
#ALM #voicechat
1👍3
MiDashengLM
Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы
Код
Демо
Веса ~50Гб
#audio2text #alm #assistant
Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы
Код
Демо
Веса ~50Гб
#audio2text #alm #assistant
🔥5👍2🤔1👀1