Big Data AI
16.8K subscribers
854 photos
99 videos
19 files
848 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
加入频道
Forwarded from Machinelearning
🌟 LLaMA-Omni: Речевое управление LLM

LLaMA-Omni - модель, построенная на основе Llama-3.1-8B-Instruct, которая поддерживает голосовое взаимодействие с низкой задержкой ответа и высоким качеством синтеза аудио, одновременно генерируя текстовые и речевые ответы на основе голосовых инструкций.

LLaMA-Omni не требует транскрипции речи, напрямую передавая адаптированное речевое представление в LLM. LLM генерирует текстовый ответ, и, параллельно декодер речи генерирует соответствующие дискретные речевые единицы, используя скрытые состояния инференса LLM. Применение этой конструктивной особенности значительно сокращает задержку ответа до в 226 мс на chunk-size размерности 10.

Для установки и локального запуска понадобятся GPU => 20GB и набор :

🟢Модель Llama-3.1-8B-Omni
🟢Модель Whisper-large-v3;
🟠HiFi-GAN вокодер;
🟠Тулкит Fairseq;
🟠Flash-attention.

⚠️ Примечания:

🟠Gradio плохо воспроизводит потоковое аудио, поэтому автовоспроизведение в нем отключено;

🟠Чтобы запустить СLI-инференс локально, организуйте файлы речевых инструкций в соответствии с форматом в omni_speech/infer/examples, а затем обратитесь скрипту omni_speech/infer/run.sh.

▶️Установка :

# Clone repository 
git clone https://github.com/ictnlp/LLaMA-Omni
cd LLaMA-Omni

# Install packages
conda create -n llama-omni python=3.10
conda activate llama-omni
pip install pip==24.0
pip install -e .

# Install fairseq
git clone https://github.com/pytorch/fairseq
cd fairseq
pip install -e . --no-build-isolation

# Install flash-attention
pip install flash-attn --no-build-isolation


▶️ Выполните команды, описанные в разделах Quick Start и Gradio Demo. Интерфейс будет доступен в вашем браузере по адресу http://localhost:8000/


📌Лицензирование : Apache 2.0 License.


🟡Модель
🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Llama #SpeechToSpeech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2