Нейронавт | Нейросети в творчестве

DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis

Новая голосовая модель.
Умеет подстраивать длительность звуков в словах, что делает речь более естественной. Заявлена возможность клонирования голоса без дообучения.

Знает английский и китайский

Код
Альтернативный код
Демо

Спасибо @m_franz

#voicecloning #tts #text2speech

GitHub

GitHub - yl4579/DMOSpeech2

Contribute to yl4579/DMOSpeech2 development by creating an account on GitHub.

👍4

1.66K views06:31

Нейронавт | Нейросети в творчестве

1:24

This media is not supported in your browser

VIEW IN TELEGRAM

Клонирование голоса в Mega TTS3.

Для контекста: некоторое время назад ByteDance выпустила MegaTTS 3 (с исключительными возможностями клонирования голоса), но по разным причинам решила не выпускать кодер WavVAE, необходимый для работы клонирования голоса.

Недавно, кодер WavVAE, совместимый с MegaTTS 3, был выпущен ACoderPassBy на китайской платформе ModelScope с весьма многообещающими результатами.

Некто mrfakename прикрутил этот кодер к байтдэнсовской TTS и оно довольно неплохо работает. В самой Mega TTS нет поддержки русского вроде как, но она работает с моделями от F5 TTS (не подтверждено). При этом если в демке скормить образец голоса на русском и озвучить английский текст, получается очень близкий голос с прикольным русским акцентом.

Демку можно потестить в спейсе на HF.

Спасибо @asleephidden

MegaTTS 3 - сайт проекта

Модель знает английский и китайский

Код
Оригинальный демоспейс - вроде есть клонирование голоса. Видимо подсуетились уже

#tts #text2speech #voicecloning

👍7❤3👎2

1.83K views13:16

Нейронавт | Нейросети в творчестве

Minimax Voice Design завезли на fal.ai

Если есть кредиты, использовать здесь

#voicecloning #tts #text2speech #voicedesign #text2audio #text2music

👍2

1.84K views18:09

Нейронавт | Нейросети в творчестве

2:10

This media is not supported in your browser

Higgs Audio V2: Redefining Expressiveness in Audio Generation

Новая модель генерации речи и клонирования голоса с фокусом на выразительность от Boson AI

Побивает GPT-4o-mini-tts в 75.7% случаев на EmergentTTS-Eval

- генерация диалогов с несколькими голосами, которые звучат натурально;

- создание длинных аудио с одним голосом;

- 24 кГц

- лёгкие версии функционируют на Jetson Orin Nano, а для топовой модели требуется RTX 4090;

- автоматическая подстройка интонаций и эмоций в речи, одновременная генерация речи и фоновой музыки, имитация напевания мелодий

- интерактивный перевод разговора с клонированием голоса.

- Английский, Китайский, Корейский, Немецкий

Код
Веса
Демо
Демо HF
Higgs Audio Tokenizer

#tts #text2speech #voicecloning #dubbing #translation

👍8

1.54K views13:16

Нейронавт | Нейросети в творчестве

Голосовую модель MegaTTS 3 можно запустить в колабе

Jupiter / Colab

#tts #text2speech #voicecloning

👍6❤1

1.66K views11:14

Нейронавт | Нейросети в творчестве

1:00

This media is not supported in your browser

VIEW IN TELEGRAM

Kitten TTS

#sota маленьких голосовых моделей.
Работает без GPU, всего 15М параметров. Оптимизирована для рилтайма

По языкам нет информации. Должна завестись даже на Raspberry Pi

Младшая весит всего 25 мегабайт.
За две недели сделали - огонь!

Код
Веса

#tts #text2speech #realtime

🔥12😱2🤔1

1.67K viewsedited 07:11

Нейронавт | Нейросети в творчестве

1:11

This media is not supported in your browser

VIEW IN TELEGRAM

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

Minimax Speech 2.5

Речевая модель от Minimax

40 языков, в том числе русский.
Реалистичное клонирование голоса.
Контроль ударений, паузы, интонаций, акцента

Есть 8 готовых русских голосов

На старте дают 10 тысяч кредитов ~ на 12 минут аудио

Пробовать тут - не могу зайти ни так ни через три буквы. Видимо жаждущие попробовать задушили сервис

#text2speech #tts #voicecloning

👍4❤2

2.04K views19:40

Нейронавт | Нейросети в творчестве

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

VyvoTTS-LFM2-350M-Jenny

Новая голосовая модель. 350М параметров.

Говорит на английском. Но для дообучения на новый язык или на новый голос достаточно 6Gb VRAM. А для работы всего 2Gb

Авторы планируют выпустить еще несколько моделей, и на HF уже не только Jenny. Работают над поддержкой vLLM и другими фичами прежде чем полностью выпустить проект в опенсорс

#text2speech #tts #voicecloning

1👍16🔥2

1.7K viewsedited 09:12

Нейронавт | Нейросети в творчестве

Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning

Кросс-лингвальный генератор речи с эмоциями и клонированием голоса от Alibaba.
Модель научили разделять идентичность говорящего и эмоциональную составляющую в отдельные потоки обработки.

Говорит по английски и китайски.

Гитхаб - послушать примеры можно там

#text2speech #tts #voicecloning

👍7❤2

1.64K viewsedited 17:07

Нейронавт | Нейросети в творчестве

Русский F5-TTS и русский датасет для голосовых моделей

#tts #dataset #text2speech #voiceclonong

👍1

1.32K views05:19

Нейронавт | Нейросети в творчестве

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

VibeVoice: A Frontier Open-Source Text-to-Speech Model

Голосовая модель от Microsoft для выразительных диалогов и подкастов.

Может синтезировать речь продолжительностью до 90 минут.

Поддерживает работу с 4 разными голосами в одной генерации, это на 2-3 голоса больше чем в ведущих моделях.

Есть китайский и английский. Надеемся на дообучение

На примере женский голос норм, мужской эмоционально пустой. Послушайте примеры на сайте для общей картины

Код
HF - модель на 1.5 млрд. параметров + токенизатор Обещают 7B и 0.5B
Демо

#podcast #voicecloning #tts #text2speech #text2podcast

👍9❤1🤔1

1.4K views11:33

Нейронавт | Нейросети в творчестве

0:52

This media is not supported in your browser

lipsync-2-pro: studio-grade lipsync in minutes

Новая версия говорилки с липсинком от sync.so

Умеет клонировать голос, делает липсинк видео

В режиме Pro есть таймлиния

Бесплатного тарифа нет, но дают попробовать

Спасибо @m_franz

#lipsync #tts #text2speech #voicecloning

👍9

1.47K views06:09

Нейронавт | Нейросети в творчестве

ComfyUI-VibeVoice

Ноды голосовой модели VibeVoice

воркфлоу

#podcast #voicecloning #tts #workflow #text2speech #text2podcast #comfyui

🔥10

1.8K views14:12

About

Blog

Apps

Platform