Нейронавт | Нейросети в творчестве
9.39K subscribers
3.62K photos
3.13K videos
40 files
4.09K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
Streaming Sortformer

Модель от NVIDIA для диаризации в реальном времени, которая позволяет определять, кто говорит в многоголосных аудиозаписях.

Возможности модели:

- диаризация на уровне кадров с тегами (например, spk_0, spk_1);

- точные временные метки для каждого помеченного высказывания;

- отслеживание 2–4+ говорящих с минимальной задержкой;

- оптимизация для английского языка, но успешное тестирование на мандаринском и других языках.

Пример на видео конечно дурацкий, все друг друга ждут чтобы сказать свою реплику, в жизни оно не так работает

HF

#ASR #speech2text #stt
👍101🍌1