MMS: Scaling Speech Technology to 1000+ languages
Специалисты из Meta AI выпустили модель, которая переводит 1100 языков из текста в аудио и из аудио в текст. Целью было, как я понял, создание единой модели, понимающей много языков. Судя по демо, получилось.
Кроме всего прочего, для обучения собрали и использовали аудио записи, где люди читают Библию на разных языках. Потому что, кажется, нет другой книги, которая была бы переведена на столько разных языков. Очень хитро́!
Код
#TTS #STT
Специалисты из Meta AI выпустили модель, которая переводит 1100 языков из текста в аудио и из аудио в текст. Целью было, как я понял, создание единой модели, понимающей много языков. Судя по демо, получилось.
Кроме всего прочего, для обучения собрали и использовали аудио записи, где люди читают Библию на разных языках. Потому что, кажется, нет другой книги, которая была бы переведена на столько разных языков. Очень хитро́!
Код
#TTS #STT
Sergey_1686216004127.wav
583.6 KB
SmartSpeech
Сервис распознавания и синтеза речи от Сбера.
До сих пор был доступен только компаниям. Теперь есть фримиум для физлиц.
Бесплатные лимиты:
Синтез речи
До 200 000 символов на 30 дней
Распознавание речи
До 100 минут (6000 секунд)на 30 дней
Для доступа может понадобиться бесплатный аккаунт девелопера.
#TTS #STT #text2speech #speech2text
Сервис распознавания и синтеза речи от Сбера.
До сих пор был доступен только компаниям. Теперь есть фримиум для физлиц.
Бесплатные лимиты:
Синтез речи
До 200 000 символов на 30 дней
Распознавание речи
До 100 минут (6000 секунд)на 30 дней
Для доступа может понадобиться бесплатный аккаунт девелопера.
#TTS #STT #text2speech #speech2text
👍2
Media is too big
VIEW IN TELEGRAM
NVIDIA NeMo
Диалоговый набор ИИ-инструментов для
- распознавая речи
- генерации речи по тексту
- больших языковых моделей (LLM)
- обработки естественного языка (NLP)
- визуально-языковых задач
На гитхабе подробные туториалы, инструкции, примеры.
Гитхаб
Демо NeVA, визуально-языковой ассистент
#TTS #STT #multimodal #NLP #LLM #image2text #CV
Диалоговый набор ИИ-инструментов для
- распознавая речи
- генерации речи по тексту
- больших языковых моделей (LLM)
- обработки естественного языка (NLP)
- визуально-языковых задач
На гитхабе подробные туториалы, инструкции, примеры.
Гитхаб
Демо NeVA, визуально-языковой ассистент
#TTS #STT #multimodal #NLP #LLM #image2text #CV
This media is not supported in your browser
VIEW IN TELEGRAM
Seamless Communication
Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:
SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо
SeamlessExpressive - модель с акцентом на выразительность речи.
Демо
SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо
Гитхаб
#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:
SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо
SeamlessExpressive - модель с акцентом на выразительность речи.
Демо
SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо
Гитхаб
#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
👍2
Media is too big
VIEW IN TELEGRAM
Friend necklace
Занятный гаджет в виде кулона с опенсорсным софтом.
Слушает и записывает ваши разговоры, коннектится к смартфону.
Заметки, выжимка, чат с заметками - все плюшки LLM.
Доступен по предзаказу или можете собрать самостоятельно по инструкции.
Инструкция по сборке
Appstore
Playmarket
#gadget #speech2text #stt #summary
Занятный гаджет в виде кулона с опенсорсным софтом.
Слушает и записывает ваши разговоры, коннектится к смартфону.
Заметки, выжимка, чат с заметками - все плюшки LLM.
Доступен по предзаказу или можете собрать самостоятельно по инструкции.
Инструкция по сборке
Appstore
Playmarket
#gadget #speech2text #stt #summary
❤5👍1😈1
This media is not supported in your browser
VIEW IN TELEGRAM
Moonshine
Распознаватор речи, бьет Whisper по нескольким параметрам.
Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.
Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи
Гитхаб
#leaderboard #ASR #speech2text #stt
Распознаватор речи, бьет Whisper по нескольким параметрам.
Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.
Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи
Гитхаб
#leaderboard #ASR #speech2text #stt
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Voice-Pro: The best gradio web-ui for transcription, translation and text-to-speech
Приложение для работы с речью - транскрибация, перевод и генерация речи по тексту.
Под капотом Whisper, Google Translator, Edge TTS. Поддерживает 100 языков. С учетом начинки можно рассчитывать на поддержку русского языка.
Умеет скачивать видео с ютуба, конвертировать в аудио, отделять речь из микса. Есть пакетная обработка и рилтайм
‼️Будьте осторожны. Уже есть пострадавшие. Устанавливайте если знаете что делаете
#tts #stt #dubbing #text2speech #speech2 text #speech
Приложение для работы с речью - транскрибация, перевод и генерация речи по тексту.
Под капотом Whisper, Google Translator, Edge TTS. Поддерживает 100 языков. С учетом начинки можно рассчитывать на поддержку русского языка.
Умеет скачивать видео с ютуба, конвертировать в аудио, отделять речь из микса. Есть пакетная обработка и рилтайм
‼️Будьте осторожны. Уже есть пострадавшие. Устанавливайте если знаете что делаете
это говно снесло мне Nvidia app при конфигурации и видуха тупо перестала работать
#tts #stt #dubbing #text2speech #speech2 text #speech
👍9🤔5🤯2
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode
Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет
SenseVoice - распознавание голоса и эмоций
CosyVoice - генерирует речь по тексту
Демо CosyVoice 2.0
Демо CosyVoise 2.0 на modelscope
Код
#tts #text2speech #stt #speech2text #realtime
Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode
Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет
SenseVoice - распознавание голоса и эмоций
CosyVoice - генерирует речь по тексту
Демо CosyVoice 2.0
Демо CosyVoise 2.0 на modelscope
Код
#tts #text2speech #stt #speech2text #realtime
huggingface.co
FunAudioLLM/SenseVoiceSmall · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍8
VideoLingo
Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.
3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества
За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др
Поддержка входных языков (будет добавлено больше):
🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊
Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса
Гитхаб
Офсайт - 15 минут бесплатно
#dubbing #speech2speech #translation #subtitles #text2speech #speech2text #tts #stt
Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.
3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества
За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др
Поддержка входных языков (будет добавлено больше):
🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊
Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса
Гитхаб
Офсайт - 15 минут бесплатно
#dubbing #speech2speech #translation #subtitles #text2speech #speech2text #tts #stt
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое🤩
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👎1
NeMo Canary-Qwen-2.5B
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
👍10