Нейронавт | Нейросети в творчестве
9.25K subscribers
3.54K photos
3.06K videos
40 files
4.02K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
OmniAudio-2.6B

Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках

Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах

Репозиторий
Демо

#ALM #assistant #mobile
👍8🔥42
Step-Audio

Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем.

130B параметров основной модели.

Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step-Audio-Tokenizer

Есть какой-то контроль эмоций голоса, диалектов и вокальных стилей, но нет сайта проекта. Судя по примеру с replicate, немножко даже пытается читать рэп.

Полного списка языков не нашел, указано что есть английский, китайский, японский

Step-Audio-TTS-3b на Replicate
Веса
Гитхаб
AppStore - есть приложение, там все на китайском. Можно залогиниться по российксой симке, но чат работает и без этого. Даже на русском. Подключен DeepSeek R1. Но где там голосовой режим я не нашел

#ALM #voicechat #assistant #iOS
👍4
Нейронавт | Нейросети в творчестве
Step-Audio Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем. 130B параметров основной модели. Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step…
Появился демоспейс Step Audio Chat от stepfun
В демо доступны английский и китайский языки. Рилтайма нет. Записываете свой вопрос через микрофон - жмете кнопку - получаете ответ

Напоминаю, у модели есть контроль эмоций голоса, диалектов и вокальных стилей, попробуйте получить это от нее

Демо

#ALM #voicechat
1👍3
MiDashengLM

Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы

Код
Демо
Веса ~50Гб

#audio2text #alm #assistant
🔥5👍2🤔1👀1