Forwarded from DL in NLP (nlpcontroller_bot)
И немного новостей из параллельного (но очень близкого) NLP мира
We just released the paper and code for Mellotron: a multispeaker voice synthesis model that can make a voice emote and sing without emotive or singing training data.
https://github.com/NVIDIA/mellotron
Via twitter.com/RafaelValleArt/status/1199017762774900738
We just released the paper and code for Mellotron: a multispeaker voice synthesis model that can make a voice emote and sing without emotive or singing training data.
https://github.com/NVIDIA/mellotron
Via twitter.com/RafaelValleArt/status/1199017762774900738
GitHub
GitHub - NVIDIA/mellotron: Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote…
Mellotron: a multispeaker voice synthesis model based on Tacotron 2 GST that can make a voice emote and sing without emotive or singing training data - NVIDIA/mellotron
Нейросеть распознает действие на видео в реальном времени
https://neurohive.io/ru/papers/nejroset-raspoznaet-dejstvie-na-video-v-realnom-vremeni/
https://neurohive.io/ru/papers/nejroset-raspoznaet-dejstvie-na-video-v-realnom-vremeni/
Neurohive - Нейронные сети
Нейросеть распознает действие на видео в реальном времени
YOWO - это сверточная нейросеть для распознавания действия на видео в реальном времени. YOWO обходит state-of-the-art на 3.3% и 12.2% по frame-mAP метрике.
Как работает сверточная нейронная сеть: архитектура, примеры, особенности
https://neurohive.io/ru/osnovy-data-science/glubokaya-svertochnaja-nejronnaja-set/
https://neurohive.io/ru/osnovy-data-science/glubokaya-svertochnaja-nejronnaja-set/
Neurohive - Нейронные сети
Как работает сверточная нейронная сеть - Полный гайд
Как работает сверточная нейронная сеть, как происходит обучение сети. Примеры работы, архитектура, алгоритмы и задачи.
Forwarded from Neurohive - Нейронные сети, AI, ML, DL
Neural Voice Puppetry — это нейросетевой подход для генерации видеозаписи говорящего человека по аудиозаписи разговора. Модель обучалась на коротких видеозаписях говорящих людей от 2 до 3 минут. Модель способна рендерить реалистичные видеозаписи целевой персоны, которые синхронизированы с записью речи.