Нейронавт | Нейросети в творчестве

OmniAudio-2.6B

Самая быстрая и эффективная мультимодальная аудиоязыковая модель, пригодная для запуска на смартфонах и ноутбуках

Внутри Gemma-2-2b, Whisper turbo и модуль для обработки аудио и текста на потребительских устройствах

Репозиторий
Демо

#ALM #assistant #mobile

👍8🔥4❤2

2.99K views18:17

Step-Audio

Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем.

130B параметров основной модели.

Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step-Audio-Tokenizer

Есть какой-то контроль эмоций голоса, диалектов и вокальных стилей, но нет сайта проекта. Судя по примеру с replicate, немножко даже пытается читать рэп.

Полного списка языков не нашел, указано что есть английский, китайский, японский

Step-Audio-TTS-3b на Replicate
Веса
Гитхаб
AppStore - есть приложение, там все на китайском. Можно залогиниться по российксой симке, но чат работает и без этого. Даже на русском. Подключен DeepSeek R1. Но где там голосовой режим я не нашел

#ALM #voicechat #assistant #iOS

👍4

2.01K views10:32

Нейронавт | Нейросети в творчестве

Step-Audio Аудиоязыковая пачка моделей от Stepfun - авторов Step-Video-T2V. Для вербального естественного взаимодействия, то бишь для голосового общения с пользователем. 130B параметров основной модели. Состоит из Step-Audio-Chat, Step-Audio-TTS-3B и Step…

Появился демоспейс Step Audio Chat от stepfun
В демо доступны английский и китайский языки. Рилтайма нет. Записываете свой вопрос через микрофон - жмете кнопку - получаете ответ

Напоминаю, у модели есть контроль эмоций голоса, диалектов и вокальных стилей, попробуйте получить это от нее

Демо

#ALM #voicechat

1👍3

1.92K views09:09

Нейронавт | Нейросети в творчестве

MiDashengLM

Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы

Код
Демо
Веса ~50Гб

#audio2text #alm #assistant

🔥5👍2🤔1👀1

1.67K views08:12

Нейронавт | Нейросети в творчестве

1:57

Media is too big

VIEW IN TELEGRAM

Step-Audio 2: Breakthrough in End-to-End Large Audio Language Model

Вторая версия китайской аудиоязыковой модели (#LALM) от Степана (Step-fun)

Две модели:
Step-Audio 2 mini
Step-Audio 2 mini Base

— может обрабатывать аудио в режиме end-to-end, минуя сложные многоступенчатые пайплайны;

— понимает паралингвистическую информацию: стили речи, эмоции, интонацию;

— обращается к внешним инструментам, например, веб-поиску, чтобы уменьшить количество ошибок;

— переключает тембры в реальном времени по текстовому запросу;

— демонстрирует лучшие в отрасли результаты (верим, верим) в тестах на понимание аудио и ведение диалогов;

— поддерживает многоязычность, включая английский и китайские диалекты;

— генерирует повествования и учитывает эмоции в диалогах.

Гитхаб
Демо
HF
Чат на офсайте - без новой говорилки
AppStore - но доступно в мобильной аппке

#ALM #voicechat #assistant #iOS #mobile #chat #voicemode

🔥5👍3❤1

1.47K views13:16

About

Blog

Apps

Platform