UniAudio: An Audio Foundation Model Toward Universal Audio Generation
Универсальная базовая модель генерации звука
- текст в речь
- клонирование голоса
- замена голоса по образцу
- вокал по образцу без дообучения
- улучшение качества звука без дообучения
- удаление шума
- выделение одного голоса из микса голосов
- текст в звук
- текст в музыку
- редактирование звука по тексту
- удаление эха
- редактирование речи текстовыми указаниями
Впечатляет? Примеров слишком много чтобы тащить сюда, смотрите на сайте проекта, авторы планируют добавить примеры других задач
Код
#audio #TTS #text2music #text2sound #speech2speech #voicecloning #demix #denoise #audioenhance
Универсальная базовая модель генерации звука
- текст в речь
- клонирование голоса
- замена голоса по образцу
- вокал по образцу без дообучения
- улучшение качества звука без дообучения
- удаление шума
- выделение одного голоса из микса голосов
- текст в звук
- текст в музыку
- редактирование звука по тексту
- удаление эха
- редактирование речи текстовыми указаниями
Впечатляет? Примеров слишком много чтобы тащить сюда, смотрите на сайте проекта, авторы планируют добавить примеры других задач
Код
#audio #TTS #text2music #text2sound #speech2speech #voicecloning #demix #denoise #audioenhance
👍9
Вот несколько важных штук о которых я вам не успевал рассказать. Текст честно с@$&дил у Олега. И тегов насыплю чтобы можно было найти по поиску
— Alibaba представили виртуальную примерку OutfitAnyone, загружаете фото и примеры одежды, получаете фото в одежде или даже анимацию 🕺💃 Демо, Сайт проекта.
— В Open-Source появилась модель Mistral 8x7b, превосходящая результаты GPT 3.5 при низких требованиях к железу 🔥 Подробнее, Попробовать.
— Разработчики выпустили Dobb-E: open-source framework для обучения домашних роботов 🤖 Сайт, Клип.
— Meta выпустила Foundation Model для генерации звука: голоса, музыки, спецэффектов и т.д 🎶 Ссылка.
— Google выпустили новый генератор музыки MusicFX. Работает для Штатов, Австралии и Кении 🎹 Слушать, Проверить здесь.
— RunwayML представили "text-to-speech" для генерации закадрового голоса и диалогов на несколько разных голосов 🎙 Ссылка.
— DeepMind представили FunSearch - метод исследования с использованием больших языковых моделей для открытия новых решений в математике и информатике 🌐 Блог-пост, Статья в Nature.
— Google выпустили новый генератор text2video 📽 Демо, Статья.
— StabilityAI выпустили Stable Zero123 для генерации 3D 🧊 Новость, Код.
— WonderJourney: модульный фреймворк с использованием LLM для генерации 3D-сцен и формирования "чудесных путешествий" 🌅 Сайт.
— PowerPaint: модель для редактирования изображений через инпейтинг, аутпейтинг и ControlNet 🖌 Сайт.
#inpainting #outpainting #textto3D #text2video #text2speech #text2music #voicecloning #text2audio #text2sound
— Alibaba представили виртуальную примерку OutfitAnyone, загружаете фото и примеры одежды, получаете фото в одежде или даже анимацию 🕺💃 Демо, Сайт проекта.
— В Open-Source появилась модель Mistral 8x7b, превосходящая результаты GPT 3.5 при низких требованиях к железу 🔥 Подробнее, Попробовать.
— Разработчики выпустили Dobb-E: open-source framework для обучения домашних роботов 🤖 Сайт, Клип.
— Meta выпустила Foundation Model для генерации звука: голоса, музыки, спецэффектов и т.д 🎶 Ссылка.
— Google выпустили новый генератор музыки MusicFX. Работает для Штатов, Австралии и Кении 🎹 Слушать, Проверить здесь.
— RunwayML представили "text-to-speech" для генерации закадрового голоса и диалогов на несколько разных голосов 🎙 Ссылка.
— DeepMind представили FunSearch - метод исследования с использованием больших языковых моделей для открытия новых решений в математике и информатике 🌐 Блог-пост, Статья в Nature.
— Google выпустили новый генератор text2video 📽 Демо, Статья.
— StabilityAI выпустили Stable Zero123 для генерации 3D 🧊 Новость, Код.
— WonderJourney: модульный фреймворк с использованием LLM для генерации 3D-сцен и формирования "чудесных путешествий" 🌅 Сайт.
— PowerPaint: модель для редактирования изображений через инпейтинг, аутпейтинг и ControlNet 🖌 Сайт.
#inpainting #outpainting #textto3D #text2video #text2speech #text2music #voicecloning #text2audio #text2sound
Telegram
КиберОлег 🦄🤖🙌
Привет, я Олег - ml engineer и основатель в tatradev.com и https://insomnia.land. В канале пишу простыми словами об искусственном интеллекте и стартапах. Welcome!
По вопросам сотрудничества:
t.me/cyber_oleg
По вопросам сотрудничества:
t.me/cyber_oleg
🔥9❤2👍1👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Fugatto
Новая базовая аудиомодель от Nvidia на 2.5B параметров.
Может если не все, очень много:
звуковые эффекты по текстовому промпту, речь по тексту, музыка, сделать один музыкальный инструмент из другого, добавить музыкальный инструмент в трек, изолировать источник звука из трека.
Попробовать не дают, кода нет
#music #music2music #audioediting #text2sound #text2speech #musicediting
Новая базовая аудиомодель от Nvidia на 2.5B параметров.
Может если не все, очень много:
звуковые эффекты по текстовому промпту, речь по тексту, музыка, сделать один музыкальный инструмент из другого, добавить музыкальный инструмент в трек, изолировать источник звука из трека.
Попробовать не дают, кода нет
#music #music2music #audioediting #text2sound #text2speech #musicediting
👍8🤡3
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V1: Human-Centric Video Foundation Model
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
Генератор видео по тексту и по картинке на основе Hunyuan
Заточен на человеков в кадре, там под капотом помогает 3D реконструкция
На 4090 должен вывозить 97 кадров 960px544
Гитхаб
Веса SkyReels-V1-Hunyuan-I2V
Веса SkyReels-V1-Hunyuan-T2V
Попробовать на офсайте - 50 стартовых кредитов должно хватить на 1 генерацию. Но не спешите гулять на все, у них там еще есть липсинк, генерация картинок, генераторы музыки, звуковых эффектов, речи, сценария по рассказу
Их канал на Youtube
#text2video #image2video #lipsync #text2movie #text2music #text2sound #text2sfx
👍5
MusicGPT
Еще один генератор-редактор музыки/песен/звука
Можно делать инструментал, можно с вокалом
Делает ремиксы, умеет преобразовывать звуки, в том числе изменять голос. Ах да, есть TTS, может создать речь из вашего текста
И какой позор что их презентационное видео в твиттере залито БЕЗ ЗВУКА!
Я вам сам потыкал в ТОП 50 с сайта, наслаждайтесь
На старте дают 500 кредитов - это примерно на 10 музыкальных треков. За приглашение друзей докидывают еще по 500 кредитов. Но коммерческое использование музыки все равно только на платном тарифе
#music #text2music #text2sound #music2music #tts #text2speech
Еще один генератор-редактор музыки/песен/звука
Можно делать инструментал, можно с вокалом
Делает ремиксы, умеет преобразовывать звуки, в том числе изменять голос. Ах да, есть TTS, может создать речь из вашего текста
И какой позор что их презентационное видео в твиттере залито БЕЗ ЗВУКА!
Я вам сам потыкал в ТОП 50 с сайта, наслаждайтесь
На старте дают 500 кредитов - это примерно на 10 музыкальных треков. За приглашение друзей докидывают еще по 500 кредитов. Но коммерческое использование музыки все равно только на платном тарифе
#music #text2music #text2sound #music2music #tts #text2speech
🔥10🤮1
This media is not supported in your browser
VIEW IN TELEGRAM
Kling Sound
А также выпустили генератор звуков для видео
Или просто по текстовому описанию
#video2sound #text2sound #sfx #foley
А также выпустили генератор звуков для видео
Или просто по текстовому описанию
#video2sound #text2sound #sfx #foley
👍4🔥3⚡1