Forwarded from Machinelearning
Step-Audio – платформа с открытым исходным кодом, объединяющая понимание и генерацию речи для поддержки мультиязычных диалогов (китайский, английский и японский).
Step-Audio способна передавать эмоциональные оттенки, региональные диалекты, различные стили речи и вокала.
Основой Step-Audio является 130B мультимодальная модель, которая объединяет в себе функции распознавания и генерации речи, семантического понимания, ведения диалога, клонирования голоса и синтеза речи. Важным компонентом является собственный токенизатор, позволяющий создавать высококачественный звук без традиционного сбора данных вручную.
Step-Audio-Tokenizer - токенизатор речи. Для лингвистической токенизации используется кодер Paraformer, который квантуется в дискретные представления с частотой 16,7 Гц. Для семантической токенизации - токенизатор CosyVoice, специально разработанный для эффективного кодирования характеристик, необходимых для создания естественных и выразительных речевых результатов, работающий на частоте 25 Гц.
Step-Audio-Chat - мультимодальная LLM с 130 млрд. параметров, которая отвечает за понимание и генерацию человеческой речи.
Step-Audio-TTS-3B - TTS-модель, обученная на крупном синтетическом наборе данных с использованием парадигмы LLM-Chat. Модель поддерживает несколько языков, множество эмоциональных выражений и различные элементы управления стилем голоса. Step-Audio-TTS-3B является первой открытой TTS-моделью, способной генерировать певческий вокал.
StepEval-Audio-360 - датасет, собранный при участии профессиональных аннотаторов и содержит весь спектр возможностей: пение, творчество, ролевые игры, логические рассуждения, понимание голоса, следование голосовым инструкциям, игры, управление речевыми эмоциями и языковые способности на китайском, английском и японском языках.
⚠️ Для локального использования понадобится (41.6Гц): Step-Audio-Tokenizer - 1.5 GB VRAM, Step-Audio-Chat - 256 GB VRAM, Step-Audio-TTS-3B - 8GB VRAM.
⚠️ Наиболее качественный инференс, по словам разработчиков, достигается на 4xA800/H800 GPU с 80GB или больше.
# Clone the repository
git clone https://github.com/stepfun-ai/Step-Audio.git
# Create a Conda venv
conda create -n stepaudio python=3.10
conda activate stepaudio
# Install dependencies
cd Step-Audio
pip install -r requirements.txt
git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B
# TTS inference
python tts_inference.py --model-path --output-path --synthesis-type use_tts_or_clone
@ai_machinelearning_big_data
#AI #ML #ASR #TTS #StepAudio
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM