Sergey_1686216004127.wav
583.6 KB
SmartSpeech
Сервис распознавания и синтеза речи от Сбера.
До сих пор был доступен только компаниям. Теперь есть фримиум для физлиц.
Бесплатные лимиты:
Синтез речи
До 200 000 символов на 30 дней
Распознавание речи
До 100 минут (6000 секунд)на 30 дней
Для доступа может понадобиться бесплатный аккаунт девелопера.
#TTS #STT #text2speech #speech2text
Сервис распознавания и синтеза речи от Сбера.
До сих пор был доступен только компаниям. Теперь есть фримиум для физлиц.
Бесплатные лимиты:
Синтез речи
До 200 000 символов на 30 дней
Распознавание речи
До 100 минут (6000 секунд)на 30 дней
Для доступа может понадобиться бесплатный аккаунт девелопера.
#TTS #STT #text2speech #speech2text
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Nova2 от Deepgram
Транскрибатор речи из аудио в текст.
Deepgram поддерживает много языков, в том числе русский и английский.
Про Nova2 на сайте висит инфа что пока только английский и планируют расширять список языков.
Заявлено лучшее качество и скорость среди конкурентов.
На вход принимает файлы и потоковое аудио в реальном времени.
Умеет в суммаризацию и еще какие-то ИИ-постобработки.
Есть API. Короче, плюшек много.
На старте дают бесплатного сервиса на 200$, обработка минуты аудио примерно от 0.005$. Немало? Ну а когда эти стартовые иссякнут вы знаете что делать.
#speech2text
Транскрибатор речи из аудио в текст.
Deepgram поддерживает много языков, в том числе русский и английский.
Про Nova2 на сайте висит инфа что пока только английский и планируют расширять список языков.
Заявлено лучшее качество и скорость среди конкурентов.
На вход принимает файлы и потоковое аудио в реальном времени.
Умеет в суммаризацию и еще какие-то ИИ-постобработки.
Есть API. Короче, плюшек много.
На старте дают бесплатного сервиса на 200$, обработка минуты аудио примерно от 0.005$. Немало? Ну а когда эти стартовые иссякнут вы знаете что делать.
#speech2text
👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Speechmatics
Транскрибация и перевод речи в реальном времени.
Анализ настроения и определение темы.
Поддерживает 45 языков, в том числе русский.
Есть API.
На бесплатном тарифе в месяц дают бесплатно 4 часа рилтайма + 4 часа обработки файлов
#speech2text #translation #text2text
Транскрибация и перевод речи в реальном времени.
Анализ настроения и определение темы.
Поддерживает 45 языков, в том числе русский.
Есть API.
На бесплатном тарифе в месяц дают бесплатно 4 часа рилтайма + 4 часа обработки файлов
#speech2text #translation #text2text
This media is not supported in your browser
VIEW IN TELEGRAM
OWSM v3: An Open Whisper-style Speech Model from CMU WAVLab
Говорят, превосходит Whisper
- Распознавание речи для 151 языка
- Перевод речи с любого на любой язык
- Предсказание временных меток
- Транскрипция в длинной форме
- Идентификация языка
Демо
Колаб
#speech2text #translation #speech2speech #voice2text
Говорят, превосходит Whisper
- Распознавание речи для 151 языка
- Перевод речи с любого на любой язык
- Предсказание временных меток
- Транскрипция в длинной форме
- Идентификация языка
Демо
Колаб
#speech2text #translation #speech2speech #voice2text
🔥4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Seamless Communication
Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:
SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо
SeamlessExpressive - модель с акцентом на выразительность речи.
Демо
SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо
Гитхаб
#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:
SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо
SeamlessExpressive - модель с акцентом на выразительность речи.
Демо
SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо
Гитхаб
#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
👍2
Parakeet-TDT
Транскрибатор английской речи в текст нижнего регистра. Ну и зачем оно нам? Не знаю пока, интересно что это совместная разработка Nvidia и Suno.ai. Со стороны Nvidia библиотека для исследований в области распознавания речи NVIDIA NeMo
Модель
Демо
#speech2text
Транскрибатор английской речи в текст нижнего регистра. Ну и зачем оно нам? Не знаю пока, интересно что это совместная разработка Nvidia и Suno.ai. Со стороны Nvidia библиотека для исследований в области распознавания речи NVIDIA NeMo
Модель
Демо
#speech2text
This media is not supported in your browser
VIEW IN TELEGRAM
MetaVoice-1B
Обновлен высококачественный клонировщик голоса
- 1.2B параметров
- Обучен на 100 тысячах часов речи-текста
- Синтез коротких и длинных разговоров
- Генерация эмоциональной речи на английском
- клонирование голоса по 30-секундному образцу
- файнтюнинг под другие языки
- Лицензия Apache 2.0
Гитхаб
Демо
#text2speech #speech2text
Обновлен высококачественный клонировщик голоса
- 1.2B параметров
- Обучен на 100 тысячах часов речи-текста
- Синтез коротких и длинных разговоров
- Генерация эмоциональной речи на английском
- клонирование голоса по 30-секундному образцу
- файнтюнинг под другие языки
- Лицензия Apache 2.0
Гитхаб
Демо
#text2speech #speech2text
👌5🔥3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Google научил Gemini 1.5 Pro понимать аудио.
• Распознает слова, тон, эмоции и т д
• Можно скинуть лекцию и получить викторину по содержанию за пару секунд, как на видео
• Выжимка подкастов, лекций и т д
• До 11 часов аудио за раз
• Добавили режим JSON и открыли API без листа ожидания
Попробовать (включайте VPN)
#audio2text #speech2text #assistant
• Распознает слова, тон, эмоции и т д
• Можно скинуть лекцию и получить викторину по содержанию за пару секунд, как на видео
• Выжимка подкастов, лекций и т д
• До 11 часов аудио за раз
• Добавили режим JSON и открыли API без листа ожидания
Попробовать (включайте VPN)
#audio2text #speech2text #assistant
👍11🤯2🔥1
Кулстори про мой мастеркласс.
Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.
Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text
Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.
Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.
Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.
По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.
mymeet.ai - го тестить
Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.
Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text
Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.
Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.
Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.
По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.
mymeet.ai - го тестить
👍9🤡1
Gazelle v0.2
Инновационная open source речевая модель от TincansAI. Способна обрабатывать устные запросы и длинные аудиофайлы напрямую, без предварительной транскрипции или распознавания речи.
Благодаря прямой обработке аудиоданных, модель работает быстрее и точнее, а также способна интерпретировать эмоции и даже сарказм в речи. Код “из коробки” достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход.
Это первая и единственная open source модель, способная вести диалог в реальном времени.
Код
Демо
#speech2text #audio2text #assistant
Инновационная open source речевая модель от TincansAI. Способна обрабатывать устные запросы и длинные аудиофайлы напрямую, без предварительной транскрипции или распознавания речи.
Благодаря прямой обработке аудиоданных, модель работает быстрее и точнее, а также способна интерпретировать эмоции и даже сарказм в речи. Код “из коробки” достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход.
Это первая и единственная open source модель, способная вести диалог в реальном времени.
Код
Демо
#speech2text #audio2text #assistant
🔥15
Media is too big
VIEW IN TELEGRAM
Friend necklace
Занятный гаджет в виде кулона с опенсорсным софтом.
Слушает и записывает ваши разговоры, коннектится к смартфону.
Заметки, выжимка, чат с заметками - все плюшки LLM.
Доступен по предзаказу или можете собрать самостоятельно по инструкции.
Инструкция по сборке
Appstore
Playmarket
#gadget #speech2text #stt #summary
Занятный гаджет в виде кулона с опенсорсным софтом.
Слушает и записывает ваши разговоры, коннектится к смартфону.
Заметки, выжимка, чат с заметками - все плюшки LLM.
Доступен по предзаказу или можете собрать самостоятельно по инструкции.
Инструкция по сборке
Appstore
Playmarket
#gadget #speech2text #stt #summary
❤5👍1😈1
This media is not supported in your browser
VIEW IN TELEGRAM
Moonshine
Распознаватор речи, бьет Whisper по нескольким параметрам.
Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.
Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи
Гитхаб
#leaderboard #ASR #speech2text #stt
Распознаватор речи, бьет Whisper по нескольким параметрам.
Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.
Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи
Гитхаб
#leaderboard #ASR #speech2text #stt
👍10
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs
Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode
Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет
SenseVoice - распознавание голоса и эмоций
CosyVoice - генерирует речь по тексту
Демо CosyVoice 2.0
Демо CosyVoise 2.0 на modelscope
Код
#tts #text2speech #stt #speech2text #realtime
Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode
Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет
SenseVoice - распознавание голоса и эмоций
CosyVoice - генерирует речь по тексту
Демо CosyVoice 2.0
Демо CosyVoise 2.0 на modelscope
Код
#tts #text2speech #stt #speech2text #realtime
huggingface.co
FunAudioLLM/SenseVoiceSmall · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍8
VideoLingo
Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.
3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества
За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др
Поддержка входных языков (будет добавлено больше):
🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊
Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса
Гитхаб
Офсайт - 15 минут бесплатно
#dubbing #speech2speech #translation #subtitles #text2speech #speech2text #tts #stt
Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.
3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества
За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др
Поддержка входных языков (будет добавлено больше):
🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊
Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса
Гитхаб
Офсайт - 15 минут бесплатно
#dubbing #speech2speech #translation #subtitles #text2speech #speech2text #tts #stt
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
moonshine-live
Распознавание речи в реальном времени на Moonshine
Демо
Модели
#speech2text #ASR #subtitles #realtime
Распознавание речи в реальном времени на Moonshine
Демо
Модели
#speech2text #ASR #subtitles #realtime
🔥4
OpenAI.fm
Генератор голоса/речи по тексту
Можно описать нужный голос и манеру прочтения. Клонировать нельзя. А то придет Скарлетт Йохансон - порядок наведет
Плюс две модели в API для расшифровки речи в текст "лучше чем Whisper"
#news #text2speech #speech2text
Генератор голоса/речи по тексту
Можно описать нужный голос и манеру прочтения. Клонировать нельзя. А то придет Скарлетт Йохансон - порядок наведет
Плюс две модели в API для расшифровки речи в текст "лучше чем Whisper"
#news #text2speech #speech2text
👍5😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое🤩
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.
Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.
Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.
Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое
Код
Демо - видимо, еще не собрали
#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👎1
NeMo Canary-Qwen-2.5B
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.
Влез на вершину Open ASR Leaderboard
Гитхаб
HF
Демо
#ASR #speech2text #stt #llm #leaderboard
👍10