Нейронавт | Нейросети в творчестве
9.25K subscribers
3.55K photos
3.06K videos
40 files
4.03K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
MMS: Scaling Speech Technology to 1000+ languages

Специалисты из Meta AI выпустили модель, которая переводит 1100 языков из текста в аудио и из аудио в текст. Целью было, как я понял, создание единой модели, понимающей много языков. Судя по демо, получилось.

Кроме всего прочего, для обучения собрали и использовали аудио записи, где люди читают Библию на разных языках. Потому что, кажется, нет другой книги, которая была бы переведена на столько разных языков. Очень хитро́!

Код

#TTS #STT
Sergey_1686216004127.wav
583.6 KB
SmartSpeech

Сервис распознавания и синтеза речи от Сбера.
До сих пор был доступен только компаниям. Теперь есть фримиум для физлиц.

Бесплатные лимиты:
Синтез речи
До 200 000 символов на 30 дней

Распознавание речи
До 100 минут (6000 секунд)на 30 дней

Для доступа может понадобиться бесплатный аккаунт девелопера.

#TTS #STT #text2speech #speech2text
👍2
Media is too big
VIEW IN TELEGRAM
NVIDIA NeMo

Диалоговый набор ИИ-инструментов для
- распознавая речи
- генерации речи по тексту
- больших языковых моделей (LLM)
- обработки естественного языка (NLP)
- визуально-языковых задач

На гитхабе подробные туториалы, инструкции, примеры.

Гитхаб
Демо NeVA, визуально-языковой ассистент

#TTS #STT #multimodal #NLP #LLM #image2text #CV
This media is not supported in your browser
VIEW IN TELEGRAM
Seamless Communication

Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:

SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо

SeamlessExpressive - модель с акцентом на выразительность речи.
Демо

SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо

Гитхаб

#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
👍2
Media is too big
VIEW IN TELEGRAM
Friend necklace

Занятный гаджет в виде кулона с опенсорсным софтом.
Слушает и записывает ваши разговоры, коннектится к смартфону.
Заметки, выжимка, чат с заметками - все плюшки LLM.
Доступен по предзаказу или можете собрать самостоятельно по инструкции.

Инструкция по сборке
Appstore
Playmarket

#gadget #speech2text #stt #summary
5👍1😈1
This media is not supported in your browser
VIEW IN TELEGRAM
Moonshine

Распознаватор речи, бьет Whisper по нескольким параметрам.

Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.

Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи

Гитхаб

#leaderboard #ASR #speech2text #stt
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Voice-Pro: The best gradio web-ui for transcription, translation and text-to-speech

Приложение для работы с речью - транскрибация, перевод и генерация речи по тексту.

Под капотом Whisper, Google Translator, Edge TTS. Поддерживает 100 языков. С учетом начинки можно рассчитывать на поддержку русского языка.

Умеет скачивать видео с ютуба, конвертировать в аудио, отделять речь из микса. Есть пакетная обработка и рилтайм

‼️Будьте осторожны. Уже есть пострадавшие. Устанавливайте если знаете что делаете
это говно снесло мне Nvidia app при конфигурации и видуха тупо перестала работать


#tts #stt #dubbing #text2speech #speech2 text #speech
👍9🤔5🤯2
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode

Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет

SenseVoice - распознавание голоса и эмоций

CosyVoice - генерирует речь по тексту

Демо CosyVoice 2.0

Демо CosyVoise 2.0 на modelscope

Код

#tts #text2speech #stt #speech2text #realtime
👍8
VideoLingo

Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.

3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества

За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др

Поддержка входных языков (будет добавлено больше):

🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊

Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса

Гитхаб
Офсайт - 15 минут бесплатно

#dubbing #speech2speech #translation #subtitles #text2speech #speech2text #tts #stt
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.

Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.

Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.

Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое 🤩

Код
Демо - видимо, еще не собрали

#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👎1
NeMo Canary-Qwen-2.5B

#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.

Влез на вершину Open ASR Leaderboard

Гитхаб
HF
Демо

#ASR #speech2text #stt #llm #leaderboard
👍10