This media is not supported in your browser
VIEW IN TELEGRAM
Ecout — транскрипция любого видео в реальном времени
Он ещё и придумывает ответы на вопросы, которые звучат прямо в эфире, используя OpenAI GPT-3.5
Код
#speech2text #video2text
Он ещё и придумывает ответы на вопросы, которые звучат прямо в эфире, используя OpenAI GPT-3.5
Код
#speech2text #video2text
Sergey_1686216004127.wav
583.6 KB
SmartSpeech
Сервис распознавания и синтеза речи от Сбера.
До сих пор был доступен только компаниям. Теперь есть фримиум для физлиц.
Бесплатные лимиты:
Синтез речи
До 200 000 символов на 30 дней
Распознавание речи
До 100 минут (6000 секунд)на 30 дней
Для доступа может понадобиться бесплатный аккаунт девелопера.
#TTS #STT #text2speech #speech2text
Сервис распознавания и синтеза речи от Сбера.
До сих пор был доступен только компаниям. Теперь есть фримиум для физлиц.
Бесплатные лимиты:
Синтез речи
До 200 000 символов на 30 дней
Распознавание речи
До 100 минут (6000 секунд)на 30 дней
Для доступа может понадобиться бесплатный аккаунт девелопера.
#TTS #STT #text2speech #speech2text
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Nova2 от Deepgram
Транскрибатор речи из аудио в текст.
Deepgram поддерживает много языков, в том числе русский и английский.
Про Nova2 на сайте висит инфа что пока только английский и планируют расширять список языков.
Заявлено лучшее качество и скорость среди конкурентов.
На вход принимает файлы и потоковое аудио в реальном времени.
Умеет в суммаризацию и еще какие-то ИИ-постобработки.
Есть API. Короче, плюшек много.
На старте дают бесплатного сервиса на 200$, обработка минуты аудио примерно от 0.005$. Немало? Ну а когда эти стартовые иссякнут вы знаете что делать.
#speech2text
Транскрибатор речи из аудио в текст.
Deepgram поддерживает много языков, в том числе русский и английский.
Про Nova2 на сайте висит инфа что пока только английский и планируют расширять список языков.
Заявлено лучшее качество и скорость среди конкурентов.
На вход принимает файлы и потоковое аудио в реальном времени.
Умеет в суммаризацию и еще какие-то ИИ-постобработки.
Есть API. Короче, плюшек много.
На старте дают бесплатного сервиса на 200$, обработка минуты аудио примерно от 0.005$. Немало? Ну а когда эти стартовые иссякнут вы знаете что делать.
#speech2text
👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Speechmatics
Транскрибация и перевод речи в реальном времени.
Анализ настроения и определение темы.
Поддерживает 45 языков, в том числе русский.
Есть API.
На бесплатном тарифе в месяц дают бесплатно 4 часа рилтайма + 4 часа обработки файлов
#speech2text #translation #text2text
Транскрибация и перевод речи в реальном времени.
Анализ настроения и определение темы.
Поддерживает 45 языков, в том числе русский.
Есть API.
На бесплатном тарифе в месяц дают бесплатно 4 часа рилтайма + 4 часа обработки файлов
#speech2text #translation #text2text
This media is not supported in your browser
VIEW IN TELEGRAM
OWSM v3: An Open Whisper-style Speech Model from CMU WAVLab
Говорят, превосходит Whisper
- Распознавание речи для 151 языка
- Перевод речи с любого на любой язык
- Предсказание временных меток
- Транскрипция в длинной форме
- Идентификация языка
Демо
Колаб
#speech2text #translation #speech2speech #voice2text
Говорят, превосходит Whisper
- Распознавание речи для 151 языка
- Перевод речи с любого на любой язык
- Предсказание временных меток
- Транскрипция в длинной форме
- Идентификация языка
Демо
Колаб
#speech2text #translation #speech2speech #voice2text
🔥4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Seamless Communication
Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:
SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо
SeamlessExpressive - модель с акцентом на выразительность речи.
Демо
SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо
Гитхаб
#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:
SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо
SeamlessExpressive - модель с акцентом на выразительность речи.
Демо
SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо
Гитхаб
#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
👍2
Parakeet-TDT
Транскрибатор английской речи в текст нижнего регистра. Ну и зачем оно нам? Не знаю пока, интересно что это совместная разработка Nvidia и Suno.ai. Со стороны Nvidia библиотека для исследований в области распознавания речи NVIDIA NeMo
Модель
Демо
#speech2text
Транскрибатор английской речи в текст нижнего регистра. Ну и зачем оно нам? Не знаю пока, интересно что это совместная разработка Nvidia и Suno.ai. Со стороны Nvidia библиотека для исследований в области распознавания речи NVIDIA NeMo
Модель
Демо
#speech2text
This media is not supported in your browser
VIEW IN TELEGRAM
MetaVoice-1B
Обновлен высококачественный клонировщик голоса
- 1.2B параметров
- Обучен на 100 тысячах часов речи-текста
- Синтез коротких и длинных разговоров
- Генерация эмоциональной речи на английском
- клонирование голоса по 30-секундному образцу
- файнтюнинг под другие языки
- Лицензия Apache 2.0
Гитхаб
Демо
#text2speech #speech2text
Обновлен высококачественный клонировщик голоса
- 1.2B параметров
- Обучен на 100 тысячах часов речи-текста
- Синтез коротких и длинных разговоров
- Генерация эмоциональной речи на английском
- клонирование голоса по 30-секундному образцу
- файнтюнинг под другие языки
- Лицензия Apache 2.0
Гитхаб
Демо
#text2speech #speech2text
👌5🔥3👍1