Нейронавт | Нейросети в творчестве
9.25K subscribers
3.54K photos
3.05K videos
40 files
4.02K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
https://youtu.be/qM4X02HRRf0

Опробовал SeamlessM4T на мастер-классе Курта Воннегута.
Использовал демоспейс, в котором, как я понял, крутится самая старшая модель SeamlessM4T-Large. То есть, лучше не будет.

Первые впечатления

- забывает перевести значительные части аудиофайла. Закидываешь в него минуту (это максимум на демоспейсе) - переводит только первые 12 секунд. Это самый большой недостаток

- русский голос звучит довольно живо, в отличие от, например, нейродублера видео в Яндекс браузере

- при этом дубляж на русский звучит как косноязычный переводчик, не знающий как ставить ударения в самых обычных словах. Иногда добавляет лишние слоги в слова, иногда теряет

- судя по построению фраз есть ощущение что перевод осуществляется не напрямую с английской речи в русскую речь, а через текст. Хотя, конечно, не через текст, а через токены.

- если хочется поправить что-то в речи, можно сначала перегнать в текст, а потом текст в речь. В демоспейсе все это есть.

Вердикт. Надеюсь, что хотя бы часть недостатков можно списать на ограничения демоспейса. Если в колабе будет так же, то для дубляжа на русский эта модель бесполезна. Быстрее перевести и озвучить вручную

#dubbing #multimodal #nauronaut_art #llm #speech2speech
LLaVA v1.5

Говорят, у GPT-4V появился опренсорсный конкурент, который даже покруче будет

Демо
Код
Веса
Колаб

#multimodal #chatbot #LLM
🔥5🤯3👍2