Нейронавт | Нейросети в творчестве
9.5K subscribers
3.68K photos
3.17K videos
40 files
4.13K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
Google научил Gemini 1.5 Pro понимать аудио.

• Распознает слова, тон, эмоции и т д
• Можно скинуть лекцию и получить викторину по содержанию за пару секунд, как на видео
• Выжимка подкастов, лекций и т д
• До 11 часов аудио за раз
• Добавили режим JSON и открыли API без листа ожидания

Попробовать (включайте VPN)

#audio2text #speech2text #assistant
👍11🤯2🔥1
Кулстори про мой мастеркласс.

Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.

Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text

Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.

Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.

Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.

По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.

mymeet.ai - го тестить
👍9🤡1
Gazelle v0.2

Инновационная open source речевая модель от TincansAI. Способна обрабатывать устные запросы и длинные аудиофайлы напрямую, без предварительной транскрипции или распознавания речи.

Благодаря прямой обработке аудиоданных, модель работает быстрее и точнее, а также способна интерпретировать эмоции и даже сарказм в речи. Код “из коробки” достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход.

Это первая и единственная open source модель, способная вести диалог в реальном времени.

Код
Демо

#speech2text #audio2text #assistant
🔥15
Media is too big
VIEW IN TELEGRAM
Friend necklace

Занятный гаджет в виде кулона с опенсорсным софтом.
Слушает и записывает ваши разговоры, коннектится к смартфону.
Заметки, выжимка, чат с заметками - все плюшки LLM.
Доступен по предзаказу или можете собрать самостоятельно по инструкции.

Инструкция по сборке
Appstore
Playmarket

#gadget #speech2text #stt #summary
5👍1😈1
This media is not supported in your browser
VIEW IN TELEGRAM
Moonshine

Распознаватор речи, бьет Whisper по нескольким параметрам.

Уже прикрутили в коммерческий переводчик Torre, там только английский и испанский.

Рейтинг и конкурентов кстати можно посмотреть в Open ASR Leaderboard - лидерборде распознаваторов речи

Гитхаб

#leaderboard #ASR #speech2text #stt
👍10
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs

Инструмент от Alibaba для голосового общения человека с языковыми моделями в реальном времени, можно собрать свой #Voicemode

Распознает речь на 50 языках.
Сам говорит и клонирует голос на 5 языках, русского пока нет

SenseVoice - распознавание голоса и эмоций

CosyVoice - генерирует речь по тексту

Демо CosyVoice 2.0

Демо CosyVoise 2.0 на modelscope

Код

#tts #text2speech #stt #speech2text #realtime
👍8
VideoLingo

Универсальный опенсорсный инструмент для перевода, локализации и дубляжа видео, предназначенный для создания субтитров качества Netflix.

3-этапный процесс Перевод-Осмысление-Адаптация для кинематографического качества

За дубляж отвечают GPT-SoVITS, Azure, OpenAI и др

Поддержка входных языков (будет добавлено больше):

🇺🇸 Английский 🤩 | 🇷🇺 Русский 😊 | 🇫🇷 Французский 🤩 | 🇩🇪 Немецкий 🤩 | 🇮🇹 Итальянский 🤩 | 🇪🇸 Испанский 🤩 | 🇯🇵 Японский 😐 | 🇨🇳 Китайский* 😊

Перевод поддерживает все языки, а язык дубляжа зависит от выбранного метода генерации голоса

Гитхаб
Офсайт - 15 минут бесплатно

#dubbing #speech2speech #translation #subtitles #text2speech #speech2text #tts #stt
👍8
OpenAI.fm

Генератор голоса/речи по тексту
Можно описать нужный голос и манеру прочтения. Клонировать нельзя. А то придет Скарлетт Йохансон - порядок наведет

Плюс две модели в API для расшифровки речи в текст "лучше чем Whisper"

#news #text2speech #speech2text
👍5😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

Голосовая-языковая модель, позволяет выполнять разные задачи. Есть миллионы (что?) готовых голосов, можно делать свои. Можно переключать их на лету.

Да, это значит рилтайм, потоковоая генерация. Задержка 195мс - меньше чем среднее время реакции человека.

Знает 6 языков: Английский, китайский, французский, Немецкий, Японский и Корейский.

Придумали свой бенчмарк и побили в нем Moshi и SpeechGPT втрое 🤩

Код
Демо - видимо, еще не собрали

#tts #asr #stt #text2speech #speech2text #realtime #voicecloning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4👎1
NeMo Canary-Qwen-2.5B

#SOTA в транскрибации аудио речи в текст от NVIDIA.
Умеет и отвечать на вопросы по обработанному аудио.
Знает только английский язык.

Влез на вершину Open ASR Leaderboard

Гитхаб
HF
Демо

#ASR #speech2text #stt #llm #leaderboard
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Streaming Sortformer

Модель от NVIDIA для диаризации в реальном времени, которая позволяет определять, кто говорит в многоголосных аудиозаписях.

Возможности модели:

- диаризация на уровне кадров с тегами (например, spk_0, spk_1);

- точные временные метки для каждого помеченного высказывания;

- отслеживание 2–4+ говорящих с минимальной задержкой;

- оптимизация для английского языка, но успешное тестирование на мандаринском и других языках.

Пример на видео конечно дурацкий, все друг друга ждут чтобы сказать свою реплику, в жизни оно не так работает

HF

#ASR #speech2text #stt
👍101🍌1