Нейронавт | Нейросети в творчестве
9.25K subscribers
3.54K photos
3.05K videos
40 files
4.02K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Sergey_1686216004127.wav
583.6 KB
SmartSpeech

Сервис распознавания и синтеза речи от Сбера.
До сих пор был доступен только компаниям. Теперь есть фримиум для физлиц.

Бесплатные лимиты:
Синтез речи
До 200 000 символов на 30 дней

Распознавание речи
До 100 минут (6000 секунд)на 30 дней

Для доступа может понадобиться бесплатный аккаунт девелопера.

#TTS #STT #text2speech #speech2text
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Nova2 от Deepgram

Транскрибатор речи из аудио в текст.
Deepgram поддерживает много языков, в том числе русский и английский.
Про Nova2 на сайте висит инфа что пока только английский и планируют расширять список языков.

Заявлено лучшее качество и скорость среди конкурентов.
На вход принимает файлы и потоковое аудио в реальном времени.
Умеет в суммаризацию и еще какие-то ИИ-постобработки.
Есть API. Короче, плюшек много.

На старте дают бесплатного сервиса на 200$, обработка минуты аудио примерно от 0.005$. Немало? Ну а когда эти стартовые иссякнут вы знаете что делать.

#speech2text
👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Speechmatics

Транскрибация и перевод речи в реальном времени.
Анализ настроения и определение темы.
Поддерживает 45 языков, в том числе русский.
Есть API.
На бесплатном тарифе в месяц дают бесплатно 4 часа рилтайма + 4 часа обработки файлов

#speech2text #translation #text2text
This media is not supported in your browser
VIEW IN TELEGRAM
Nova2 теперь поддерживает много языков, в том числе русский

Доступ здесь

#speech2text
1
This media is not supported in your browser
VIEW IN TELEGRAM
OWSM v3: An Open Whisper-style Speech Model from CMU WAVLab

Говорят, превосходит Whisper

- Распознавание речи для 151 языка
- Перевод речи с любого на любой язык
- Предсказание временных меток
- Транскрипция в длинной форме
- Идентификация языка

Демо
Колаб

#speech2text #translation #speech2speech #voice2text
🔥4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Seamless Communication

Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:

SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо

SeamlessExpressive - модель с акцентом на выразительность речи.
Демо

SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо

Гитхаб

#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
👍2
Parakeet-TDT

Транскрибатор английской речи в текст нижнего регистра. Ну и зачем оно нам? Не знаю пока, интересно что это совместная разработка Nvidia и Suno.ai. Со стороны Nvidia библиотека для исследований в области распознавания речи NVIDIA NeMo

Модель
Демо

#speech2text
This media is not supported in your browser
VIEW IN TELEGRAM
MetaVoice-1B

Обновлен высококачественный клонировщик голоса

- 1.2B параметров
- Обучен на 100 тысячах часов речи-текста
- Синтез коротких и длинных разговоров
- Генерация эмоциональной речи на английском
- клонирование голоса по 30-секундному образцу
- файнтюнинг под другие языки
- Лицензия Apache 2.0

Гитхаб
Демо

#text2speech #speech2text
👌5🔥3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Google научил Gemini 1.5 Pro понимать аудио.

• Распознает слова, тон, эмоции и т д
• Можно скинуть лекцию и получить викторину по содержанию за пару секунд, как на видео
• Выжимка подкастов, лекций и т д
• До 11 часов аудио за раз
• Добавили режим JSON и открыли API без листа ожидания

Попробовать (включайте VPN)

#audio2text #speech2text #assistant
👍11🤯2🔥1
Кулстори про мой мастеркласс.

Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.

Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text

Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.

Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.

Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.

По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.

mymeet.ai - го тестить
👍9🤡1
Gazelle v0.2

Инновационная open source речевая модель от TincansAI. Способна обрабатывать устные запросы и длинные аудиофайлы напрямую, без предварительной транскрипции или распознавания речи.

Благодаря прямой обработке аудиоданных, модель работает быстрее и точнее, а также способна интерпретировать эмоции и даже сарказм в речи. Код “из коробки” достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход.

Это первая и единственная open source модель, способная вести диалог в реальном времени.

Код
Демо

#speech2text #audio2text #assistant
🔥15
Media is too big
VIEW IN TELEGRAM
Friend necklace

Занятный гаджет в виде кулона с опенсорсным софтом.
Слушает и записывает ваши разговоры, коннектится к смартфону.
Заметки, выжимка, чат с заметками - все плюшки LLM.
Доступен по предзаказу или можете собрать самостоятельно по инструкции.

Инструкция по сборке
Appstore
Playmarket

#gadget #speech2text #stt #summary
5👍1😈1
This media is not supported in your browser
VIEW IN TELEGRAM
Moonshine

Распознаватор речи, бьет Whisper по нескольким параметрам.

Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.

Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи

Гитхаб

#leaderboard #ASR #speech2text #stt
👍10
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode

Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет

SenseVoice - распознавание голоса и эмоций

CosyVoice - генерирует речь по тексту

Демо CosyVoice 2.0

Демо CosyVoise 2.0 на modelscope

Код

#tts #text2speech #stt #speech2text #realtime
👍8
VideoLingo

Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.

3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества

За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др

Поддержка входных языков (будет добавлено больше):

🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊

Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса

Гитхаб
Офсайт - 15 минут бесплатно

#dubbing #speech2speech #translation #subtitles #text2speech #speech2text #tts #stt
👍8
OpenAI.fm

Генератор голоса/речи по тексту
Можно описать нужный голос и манеру прочтения. Клонировать нельзя. А то придет Скарлетт Йохансон - порядок наведет

Плюс две модели в API для расшифровки речи в текст "лучше чем Whisper"

#news #text2speech #speech2text
👍5😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.

Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.

Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.

Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое 🤩

Код
Демо - видимо, еще не собрали

#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👎1
NeMo Canary-Qwen-2.5B

#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.

Влез на вершину Open ASR Leaderboard

Гитхаб
HF
Демо

#ASR #speech2text #stt #llm #leaderboard
👍10