This media is not supported in your browser
VIEW IN TELEGRAM
Moonshine
Распознаватор речи, бьет Whisper по нескольким параметрам.
Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.
Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи
Гитхаб
#leaderboard #ASR #speech2text #stt
Распознаватор речи, бьет Whisper по нескольким параметрам.
Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.
Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи
Гитхаб
#leaderboard #ASR #speech2text #stt
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
moonshine-live
Распознавание речи в реальном времени на Moonshine
Демо
Модели
#speech2text #ASR #subtitles #realtime
Распознавание речи в реальном времени на Moonshine
Демо
Модели
#speech2text #ASR #subtitles #realtime
🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое🤩
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👎1
NeMo Canary-Qwen-2.5B
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
👍10