This media is not supported in your browser
VIEW IN TELEGRAM
Edit
В Resemble AI прикрутили редактирование звука речи через редактирование текста. В помощь живым запинающимся дикторам. Да, вот так как нам показывали Adobe 7 лет назад. Или что там, в премьер уже встроили эту фичу?
#speechediting #audioediting #text2speech #speech2speech
В Resemble AI прикрутили редактирование звука речи через редактирование текста. В помощь живым запинающимся дикторам. Да, вот так как нам показывали Adobe 7 лет назад. Или что там, в премьер уже встроили эту фичу?
#speechediting #audioediting #text2speech #speech2speech
👍5🤯4
This media is not supported in your browser
VIEW IN TELEGRAM
Fugatto
Новая базовая аудиомодель от Nvidia на 2.5B параметров.
Может если не все, очень много:
звуковые эффекты по текстовому промпту, речь по тексту, музыка, сделать один музыкальный инструмент из другого, добавить музыкальный инструмент в трек, изолировать источник звука из трека.
Попробовать не дают, кода нет
#music #music2music #audioediting #text2sound #text2speech #musicediting
Новая базовая аудиомодель от Nvidia на 2.5B параметров.
Может если не все, очень много:
звуковые эффекты по текстовому промпту, речь по тексту, музыка, сделать один музыкальный инструмент из другого, добавить музыкальный инструмент в трек, изолировать источник звука из трека.
Попробовать не дают, кода нет
#music #music2music #audioediting #text2sound #text2speech #musicediting
👍8🤡3
Media is too big
VIEW IN TELEGRAM
ThinkSound
Модель от Tongyi Lab (авторов InspireMusic и много чего еще) создаёт реалистичный звук для видео. Архитектура - цепочка рассуждений (#CoT). Необычно для генерилки звука, да? Скоро достижения языковых моделей будут везде, к этому все идет.
Модель сначала генерирует общий звуковой фон, затем улучшает качество звука конкретных объектов на экране и, наконец, редактирует всё это по текстовым указаниям пользователя
Код
Демо
Спасибо @p0lygon
#Video2sfx #foley #sfx #audioediting #video2audio #text2sfx
Модель от Tongyi Lab (авторов InspireMusic и много чего еще) создаёт реалистичный звук для видео. Архитектура - цепочка рассуждений (#CoT). Необычно для генерилки звука, да? Скоро достижения языковых моделей будут везде, к этому все идет.
Модель сначала генерирует общий звуковой фон, затем улучшает качество звука конкретных объектов на экране и, наконец, редактирует всё это по текстовым указаниям пользователя
Код
Демо
Спасибо @p0lygon
#Video2sfx #foley #sfx #audioediting #video2audio #text2sfx
🔥14👍1🤔1
Для рассуждающего генератора звука ThinkSound опубликован код обучения/файнтюна
Модель облегчили, оптимизировали расход памяти и GPU? упростили установку
Код
Демо
#Video2sfx #foley #sfx #audioediting #video2audio #text2sfx #any2audio
Модель облегчили, оптимизировали расход памяти и GPU? упростили установку
Код
Демо
#Video2sfx #foley #sfx #audioediting #video2audio #text2sfx #any2audio
👍5