Нейронавт | Нейросети в творчестве – Telegram

Нейронавт | Нейросети в творчестве

@GreenNeuralRobots

9.23K subscribers

3.53K photos

3.04K videos

40 files

4.02K links

Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

About

Blog

Apps

Platform

Нейронавт | Нейросети в творчестве

9.23K subscribers

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

OpenAudio S1

полностью кастомный ИИ-диктор от Fish Audio
Говорят что занял первое место на TTS-арене - не нашел

Клонирует голос за 15 секунд.
Можно выбирать любые эмоции, паузы, вздохи, шепот, крики, акценты и стили озвучки вашего текста.

Подходит для озвучки видео, аудиокниг, подкастов и так далее.

Поддерживает русский язык

#tts #text2speech #voicecloning

❤11🤔1

1.92K views08:41

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Chatterbox TTS

Генератор речи в опенсорсе от Resemble AI

#SOTA в клонировании голоса без обучения? клонирует по 5-секундному образцу

Под капотом 0.5B Llama.
Уникальный контроль выразительности.
Водяные знаки на выходе.
Легкий скрипт для конверсии голоса.
Превосходит ElevenLabs.

Есть в Pinokio

Код
Демо - по русски не понимает, генерирует эльфийский
Веса

#tts #text2speech #voicecloning

👍7❤3👎1

1.76K views12:46

Нейронавт | Нейросети в творчестве

Media is too big

VIEW IN TELEGRAM

ElevenLabs v3

Пользоваться этим сервисом - слишком попоболь, но вдруг вы мазохист или не россиянин - для вас выкатили самую выразительную модель озвучки текста.

- Поддерживает 70+ языков
- многоголосовой режим
- аудио-теги, которые задают интонацию, эмоции и паузы в речи.
- Считывает эмоциональные переходы, реагирует на контекст, меняет тон в процессе речи.

Весь июнь дают 80% скидки на генерацию.

Промпт-гайд для v3

#tts #text2pseech

👍2

1.56K views09:42

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

fluxions AI vui

Небольшие разговорные модели речи, которые могут запускаться на устройстве

Это опенсорсный конкурент notebooklm

Голосовая модель 100М параметров

Умеет клонировать голос

модели могут издавать различные неречевые звуки. Добавляйте в текст охи-ахи, это должно улучшить результат

Vui.BASE - базовая модель, обученная на 40 тысячах часов аудио-разговоров.

Vui.ABRAHAM - модель одного говорящего, может отвечать с учетом контекста.

Vui.COHOST - диалоговая модель двух собеседников

Попробовать на офсайте - на старте дают 10000 кредитов. По русски ни бельмес к сожалению. Качество речи ужасное. Ах да, это ж мелкие модели для смартфонов

Код
Веса
Демо - здесь будет HF демоспейс

#tts #text2speech #voicecloning #conversation #mobile

🔥8❤2

2.02K views12:41

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Chatterbox Audiobook Generator

По Chatterbox уже много свистоперделок вышло, вот одна из них. Мультиголосовой генератор аудиокниг / подкастов

Код

#audiobook #tts #text2audiobook #podcast #text2podcast

👍9

1.72K views07:43

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Minimax Lifelike Audio

Дизайн голоса - прорыв в области создания голоса:
Любой промпт, любой голос, любая эмоция
Полностью настраиваемый и многоязычный интерфейс

Речь по тексту, клонирование голоса, создание голоса. Музыку тоже может но это неточно

#voicecloning #tts #text2speech #voicedesign #text2audio #text2music

🔥10😐3👍1

2K views10:13

Нейронавт | Нейросети в творчестве

заработал демоспейс мобильного генератора речи и подкастов vui

По-русски ни бельмес

Демо

#tts #text2speech #voicecloning #conversation #mobile #podcast

Нейронавт | Нейросети в творчестве

fluxions AI vui

Небольшие разговорные модели речи, которые могут запускаться на устройстве

Это опенсорсный конкурент notebooklm

Голосовая модель 100М параметров

Умеет клонировать голос

модели могут издавать различные неречевые звуки. Добавляйте в текст…

🔥5🎃1

1.56K views07:07

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Kyutai TTS

Генератор речи в реальном времени. Выдает аудиопоток начиная с первых текстовых токенов, без необходимости знать весь текст заранее.

Клонирует голоса на основе 10-секундного аудиообразца. Эта функция сейчас недоступна

Предоставляет таймкоды для каждого генерируемого слова. Это позволяет использовать модель для создания субтитров в реальном времени

Но на данный момент знает только английский и французский языки

Код
Веса
Колаб

#tts #text2speech #voicecloning #realtime

👍11

1.74K views08:11

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Hume EVI 3

Модель от Hume AI клонирует не только голос, но язык и манеру говорить.
Может работать в связке с разными LLM

Обещают в ближайшем будущем поддержку многих языков

Для доступа притворитесь что вы не в РФ

Попробовать
Попробовать в Playground

#tts #text2speech #voicecloning

👍10

1.7K viewsedited 09:11

Нейронавт | Нейросети в творчестве

Русский F5‑TTS

Голосовая модель дообученная на русский язык на 5000+ часов.
Есть сравнение с X‑TTS и FishSpeech

для изменения ударения поставьте символ + перед ударной гласной (молок+о → молокó).
Для автоматической расстановки ударений можно использовать модель RUAccent

веса

#tts #russian #text2speech

GitHub - Den4ikAI/ruaccent: Простой расстановщик ударений с обработкой омографов

Простой расстановщик ударений с обработкой омографов - Den4ikAI/ruaccent

🔥16👍7😁2

1.92K views09:12

Нейронавт | Нейросети в творчестве

Нейронавт | Нейросети в творчестве

Русский F5‑TTS Голосовая модель дообученная на русский язык на 5000+ часов. Есть сравнение с X‑TTS и FishSpeech для изменения ударения поставьте символ + перед ударной гласной (молок+о → молокó). Для автоматической расстановки ударений можно использовать…

RUaccent портативная сборка от подписчика @muxastarikov

#tts #russian #text2speech

GitHub - mikheys/ruaccent_portable

Contribute to mikheys/ruaccent_portable development by creating an account on GitHub.

👍9🤯1

1.86K views06:19

Нейронавт | Нейросети в творчестве

DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis

Новая голосовая модель.
Умеет подстраивать длительность звуков в словах, что делает речь более естественной. Заявлена возможность клонирования голоса без дообучения.

Знает английский и китайский

Код
Альтернативный код
Демо

Спасибо @m_franz

#voicecloning #tts #text2speech

GitHub - yl4579/DMOSpeech2

Contribute to yl4579/DMOSpeech2 development by creating an account on GitHub.

👍4

1.64K views06:31

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Клонирование голоса в Mega TTS3.

Для контекста: некоторое время назад ByteDance выпустила MegaTTS 3 (с исключительными возможностями клонирования голоса), но по разным причинам решила не выпускать кодер WavVAE, необходимый для работы клонирования голоса.

Недавно, кодер WavVAE, совместимый с MegaTTS 3, был выпущен ACoderPassBy на китайской платформе ModelScope с весьма многообещающими результатами.

Некто mrfakename прикрутил этот кодер к байтдэнсовской TTS и оно довольно неплохо работает. В самой Mega TTS нет поддержки русского вроде как, но она работает с моделями от F5 TTS (не подтверждено). При этом если в демке скормить образец голоса на русском и озвучить английский текст, получается очень близкий голос с прикольным русским акцентом.

Демку можно потестить в спейсе на HF.

Спасибо @asleephidden

MegaTTS 3 - сайт проекта

Модель знает английский и китайский

Код
Оригинальный демоспейс - вроде есть клонирование голоса. Видимо подсуетились уже

#tts #text2speech #voicecloning

👍7❤3👎2

1.78K views13:16

Нейронавт | Нейросети в творчестве

Minimax Voice Design завезли на fal.ai

Если есть кредиты, использовать здесь

#voicecloning #tts #text2speech #voicedesign #text2audio #text2music

👍2

1.79K views18:09

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Higgs Audio V2: Redefining Expressiveness in Audio Generation

Новая модель генерации речи и клонирования голоса с фокусом на выразительность от Boson AI

Побивает GPT-4o-mini-tts в 75.7% случаев на EmergentTTS-Eval

- генерация диалогов с несколькими голосами, которые звучат натурально;

- создание длинных аудио с одним голосом;

- 24 кГц

- лёгкие версии функционируют на Jetson Orin Nano, а для топовой модели требуется RTX 4090;

- автоматическая подстройка интонаций и эмоций в речи, одновременная генерация речи и фоновой музыки, имитация напевания мелодий

- интерактивный перевод разговора с клонированием голоса.

- Английский, Китайский, Корейский, Немецкий

Код
Веса
Демо
Демо HF
Higgs Audio Tokenizer

#tts #text2speech #voicecloning #dubbing #translation

👍8

1.48K views13:16

Нейронавт | Нейросети в творчестве

Голосовую модель MegaTTS 3 можно запустить в колабе

Jupiter / Colab

#tts #text2speech #voicecloning

👍6❤1

1.59K views11:14

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Kitten TTS

#sota маленьких голосовых моделей.
Работает без GPU, всего 15М параметров. Оптимизирована для рилтайма

По языкам нет информации. Должна завестись даже на Raspberry Pi

Младшая весит всего 25 мегабайт.
За две недели сделали - огонь!

Код
Веса

#tts #text2speech #realtime

🔥12😱2🤔1

1.54K viewsedited 07:11

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Minimax Speech 2.5

Речевая модель от Minimax

40 языков, в том числе русский.
Реалистичное клонирование голоса.
Контроль ударений, паузы, интонаций, акцента

Есть 8 готовых русских голосов

На старте дают 10 тысяч кредитов ~ на 12 минут аудио

Пробовать тут - не могу зайти ни так ни через три буквы. Видимо жаждущие попробовать задушили сервис

#text2speech #tts #voicecloning

👍4❤2

1.85K views19:40

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

VyvoTTS-LFM2-350M-Jenny

Новая голосовая модель. 350М параметров.

Говорит на английском. Но для дообучения на новый язык или на новый голос достаточно 6Gb VRAM. А для работы всего 2Gb

Авторы планируют выпустить еще несколько моделей, и на HF уже не только Jenny. Работают над поддержкой vLLM и другими фичами прежде чем полностью выпустить проект в опенсорс

#text2speech #tts #voicecloning

1👍15🔥2

1.27K viewsedited 09:12

Нейронавт | Нейросети в творчестве

Marco-Voice: A Unified Framework for Expressive Speech Synthesis with Voice Cloning

Кросс-лингвальный генератор речи с эмоциями и клонированием голоса от Alibaba.
Модель научили разделять идентичность говорящего и эмоциональную составляющую в отдельные потоки обработки.

Говорит по английски и китайски.

Гитхаб - послушать примеры можно там

#text2speech #tts #voicecloning

👍6❤2

1.19K viewsedited 17:07