Нейронавт | Нейросети в творчестве
9.47K subscribers
3.66K photos
3.16K videos
40 files
4.12K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
Ecout — транскрипция любого видео в реальном времени

Он ещё и придумывает ответы на вопросы, которые звучат прямо в эфире, используя OpenAI GPT-3.5

Код

#speech2text #video2text
Sergey_1686216004127.wav
583.6 KB
SmartSpeech

Сервис распознавания и синтеза речи от Сбера.
До сих пор был доступен только компаниям. Теперь есть фримиум для физлиц.

Бесплатные лимиты:
Синтез речи
До 200 000 символов на 30 дней

Распознавание речи
До 100 минут (6000 секунд)на 30 дней

Для доступа может понадобиться бесплатный аккаунт девелопера.

#TTS #STT #text2speech #speech2text
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Nova2 от Deepgram

Транскрибатор речи из аудио в текст.
Deepgram поддерживает много языков, в том числе русский и английский.
Про Nova2 на сайте висит инфа что пока только английский и планируют расширять список языков.

Заявлено лучшее качество и скорость среди конкурентов.
На вход принимает файлы и потоковое аудио в реальном времени.
Умеет в суммаризацию и еще какие-то ИИ-постобработки.
Есть API. Короче, плюшек много.

На старте дают бесплатного сервиса на 200$, обработка минуты аудио примерно от 0.005$. Немало? Ну а когда эти стартовые иссякнут вы знаете что делать.

#speech2text
👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Speechmatics

Транскрибация и перевод речи в реальном времени.
Анализ настроения и определение темы.
Поддерживает 45 языков, в том числе русский.
Есть API.
На бесплатном тарифе в месяц дают бесплатно 4 часа рилтайма + 4 часа обработки файлов

#speech2text #translation #text2text
This media is not supported in your browser
VIEW IN TELEGRAM
Nova2 теперь поддерживает много языков, в том числе русский

Доступ здесь

#speech2text
1
This media is not supported in your browser
VIEW IN TELEGRAM
OWSM v3: An Open Whisper-style Speech Model from CMU WAVLab

Говорят, превосходит Whisper

- Распознавание речи для 151 языка
- Перевод речи с любого на любой язык
- Предсказание временных меток
- Транскрипция в длинной форме
- Идентификация языка

Демо
Колаб

#speech2text #translation #speech2speech #voice2text
🔥4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Seamless Communication

Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:

SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо

SeamlessExpressive - модель с акцентом на выразительность речи.
Демо

SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо

Гитхаб

#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
👍2
Parakeet-TDT

Транскрибатор английской речи в текст нижнего регистра. Ну и зачем оно нам? Не знаю пока, интересно что это совместная разработка Nvidia и Suno.ai. Со стороны Nvidia библиотека для исследований в области распознавания речи NVIDIA NeMo

Модель
Демо

#speech2text
This media is not supported in your browser
VIEW IN TELEGRAM
MetaVoice-1B

Обновлен высококачественный клонировщик голоса

- 1.2B параметров
- Обучен на 100 тысячах часов речи-текста
- Синтез коротких и длинных разговоров
- Генерация эмоциональной речи на английском
- клонирование голоса по 30-секундному образцу
- файнтюнинг под другие языки
- Лицензия Apache 2.0

Гитхаб
Демо

#text2speech #speech2text
👌5🔥3👍1