This media is not supported in your browser
VIEW IN TELEGRAM
OmniAudio-2.6B
Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках
Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах
Репозиторий
Демо
#ALM #assistant #mobile
Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках
Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах
Репозиторий
Демо
#ALM #assistant #mobile
👍8🔥4❤2
Step-Audio
Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем.
130B параметров основной модели.
Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step-Audio-Tokenizer
Есть какой-то контроль эмоций голоса, диалектов и вокальных стилей, но нет сайта проекта. Судя по примеру с replicate, немножко даже пытается читать рэп.
Полного списка языков не нашел, указано что есть английский, китайский, японский
Step-Audio-TTS-3b на Replicate
Веса
Гитхаб
AppStore - есть приложение, там все на китайском. Можно залогиниться по российксой симке, но чат работает и без этого. Даже на русском. Подключен DeepSeek R1. Но где там голосовой режим я не нашел
#ALM #voicechat #assistant #iOS
Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем.
130B параметров основной модели.
Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step-Audio-Tokenizer
Есть какой-то контроль эмоций голоса, диалектов и вокальных стилей, но нет сайта проекта. Судя по примеру с replicate, немножко даже пытается читать рэп.
Полного списка языков не нашел, указано что есть английский, китайский, японский
Step-Audio-TTS-3b на Replicate
Веса
Гитхаб
AppStore - есть приложение, там все на китайском. Можно залогиниться по российксой симке, но чат работает и без этого. Даже на русском. Подключен DeepSeek R1. Но где там голосовой режим я не нашел
#ALM #voicechat #assistant #iOS
👍4
Нейронавт | Нейросети в творчестве
Step-Audio Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем. 130B параметров основной модели. Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step…
Появился демоспейс Step Audio Chat от stepfun
В демо доступны английский и китайский языки. Рилтайма нет. Записываете свой вопрос через микрофон - жмете кнопку - получаете ответ
Напоминаю, у модели есть контроль эмоций голоса, диалектов и вокальных стилей, попробуйте получить это от нее
Демо
#ALM #voicechat
В демо доступны английский и китайский языки. Рилтайма нет. Записываете свой вопрос через микрофон - жмете кнопку - получаете ответ
Напоминаю, у модели есть контроль эмоций голоса, диалектов и вокальных стилей, попробуйте получить это от нее
Демо
#ALM #voicechat
1👍3
MiDashengLM
Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы
Код
Демо
Веса ~50Гб
#audio2text #alm #assistant
Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы
Код
Демо
Веса ~50Гб
#audio2text #alm #assistant
🔥5👍2🤔1👀1
Media is too big
VIEW IN TELEGRAM
Step-Audio 2: Breakthrough in End-to-End Large Audio Language Model
Вторая версия китайской аудиоязыковой модели (#LALM) от Степана (Step-fun)
Две модели:
Step-Audio 2 mini
Step-Audio 2 mini Base
— может обрабатывать аудио в режиме end-to-end, минуя сложные многоступенчатые пайплайны;
— понимает паралингвистическую информацию: стили речи, эмоции, интонацию;
— обращается к внешним инструментам, например, веб-поиску, чтобы уменьшить количество ошибок;
— переключает тембры в реальном времени по текстовому запросу;
— демонстрирует лучшие в отрасли результаты (верим, верим) в тестах на понимание аудио и ведение диалогов;
— поддерживает многоязычность, включая английский и китайские диалекты;
— генерирует повествования и учитывает эмоции в диалогах.
Гитхаб
Демо
HF
Чат на офсайте - без новой говорилки
AppStore - но доступно в мобильной аппке
#ALM #voicechat #assistant #iOS #mobile #chat #voicemode
Вторая версия китайской аудиоязыковой модели (#LALM) от Степана (Step-fun)
Две модели:
Step-Audio 2 mini
Step-Audio 2 mini Base
— может обрабатывать аудио в режиме end-to-end, минуя сложные многоступенчатые пайплайны;
— понимает паралингвистическую информацию: стили речи, эмоции, интонацию;
— обращается к внешним инструментам, например, веб-поиску, чтобы уменьшить количество ошибок;
— переключает тембры в реальном времени по текстовому запросу;
— демонстрирует лучшие в отрасли результаты (верим, верим) в тестах на понимание аудио и ведение диалогов;
— поддерживает многоязычность, включая английский и китайские диалекты;
— генерирует повествования и учитывает эмоции в диалогах.
Гитхаб
Демо
HF
Чат на офсайте - без новой говорилки
AppStore - но доступно в мобильной аппке
#ALM #voicechat #assistant #iOS #mobile #chat #voicemode
🔥5👍3❤1