https://youtu.be/qM4X02HRRf0
Опробовал SeamlessM4T на мастер-классе Курта Воннегута.
Использовал демоспейс, в котором, как я понял, крутится самая старшая модель SeamlessM4T-Large. То есть, лучше не будет.
Первые впечатления
- забывает перевести значительные части аудиофайла. Закидываешь в него минуту (это максимум на демоспейсе) - переводит только первые 12 секунд. Это самый большой недостаток
- русский голос звучит довольно живо, в отличие от, например, нейродублера видео в Яндекс браузере
- при этом дубляж на русский звучит как косноязычный переводчик, не знающий как ставить ударения в самых обычных словах. Иногда добавляет лишние слоги в слова, иногда теряет
- судя по построению фраз есть ощущение что перевод осуществляется не напрямую с английской речи в русскую речь, а через текст. Хотя, конечно, не через текст, а через токены.
- если хочется поправить что-то в речи, можно сначала перегнать в текст, а потом текст в речь. В демоспейсе все это есть.
Вердикт. Надеюсь, что хотя бы часть недостатков можно списать на ограничения демоспейса. Если в колабе будет так же, то для дубляжа на русский эта модель бесполезна. Быстрее перевести и озвучить вручную
#dubbing #multimodal #nauronaut_art #llm #speech2speech
Опробовал SeamlessM4T на мастер-классе Курта Воннегута.
Использовал демоспейс, в котором, как я понял, крутится самая старшая модель SeamlessM4T-Large. То есть, лучше не будет.
Первые впечатления
- забывает перевести значительные части аудиофайла. Закидываешь в него минуту (это максимум на демоспейсе) - переводит только первые 12 секунд. Это самый большой недостаток
- русский голос звучит довольно живо, в отличие от, например, нейродублера видео в Яндекс браузере
- при этом дубляж на русский звучит как косноязычный переводчик, не знающий как ставить ударения в самых обычных словах. Иногда добавляет лишние слоги в слова, иногда теряет
- судя по построению фраз есть ощущение что перевод осуществляется не напрямую с английской речи в русскую речь, а через текст. Хотя, конечно, не через текст, а через токены.
- если хочется поправить что-то в речи, можно сначала перегнать в текст, а потом текст в речь. В демоспейсе все это есть.
Вердикт. Надеюсь, что хотя бы часть недостатков можно списать на ограничения демоспейса. Если в колабе будет так же, то для дубляжа на русский эта модель бесполезна. Быстрее перевести и озвучить вручную
#dubbing #multimodal #nauronaut_art #llm #speech2speech
YouTube
ИИ-дубляж К Воннегута про линии историй | AI translation of Kurt Vonnegut on the Shapes of Stories
Нейросетевой дубляж лекции Курта Воннегута на русский язык мультимодальной моделью SeamlessM4T, см телеграм пост https://yangx.top/GreenNeuralRobots/2849
AI translation of Kurt Vonnegut on the Shapes of Stories made by SeamlessM4T model, see Telegram post h…
AI translation of Kurt Vonnegut on the Shapes of Stories made by SeamlessM4T model, see Telegram post h…
LLaVA v1.5
Говорят, у GPT-4V появился опренсорсный конкурент, который даже покруче будет
Демо
Код
Веса
Колаб
#multimodal #chatbot #LLM
Говорят, у GPT-4V появился опренсорсный конкурент, который даже покруче будет
Демо
Код
Веса
Колаб
#multimodal #chatbot #LLM
🔥5🤯3👍2