Нейронавт | Нейросети в творчестве

AssemblyAI
Инструмент, который переводит видео или аудио в текст. Работает с несколькими языками. Русского пока нет, но Assemblyai постоянно обновляют и добавляют новые языки и возможности.

Из полученного текста сразу можно выделить короткое саммари, упорядочить его по таймкодам и даже анализировать эмоциональную окраску каждой фразы.

Можно за пару минут понять, о чём говорится в длинном гайде на YouTube или в зарубежном новостном подкасте. Инструмент полностью бесплатный.

#video2text #audio2text #tools #video2summary

👍4🔥3

299 viewsedited 08:07

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

Video-LLaMA
Мультимодальная система, понимает и может описать содержимое видео, в том числе и аудио. Криво написал, да? Но надеюсь, все поняли)

Код

Демо

Модель

#audio2text #video2text #LLM

🔥8

6.41K views14:14

Нейронавт | Нейросети в творчестве

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

Еще одна модель недопонимания видео. Ну эта хоты бы заметила на рикролле женщину

Код

Демо

#audio2text #video2text #LLM

588 views15:49

Нейронавт | Нейросети в творчестве

SALMONN: Speech Audio Language Music Open Neural Network

Распозначание речи, музыки и прочих звуков на основе LLM, с последующим чатом.

Код
Демо
Веса

#chatbot #audio2text

👍2

1.14K views11:32

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Google научил Gemini 1.5 Pro понимать аудио.

• Распознает слова, тон, эмоции и т д
• Можно скинуть лекцию и получить викторину по содержанию за пару секунд, как на видео
• Выжимка подкастов, лекций и т д
• До 11 часов аудио за раз
• Добавили режим JSON и открыли API без листа ожидания

Попробовать (включайте VPN)

#audio2text #speech2text #assistant

👍11🤯2🔥1

1.98K views08:03

Нейронавт | Нейросети в творчестве

Кулстори про мой мастеркласс.

Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.

Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text

Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.

Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.

Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.

По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.

mymeet.ai - го тестить

👍9🤡1

1.44K views10:04

Нейронавт | Нейросети в творчестве

Gazelle v0.2

Инновационная open source речевая модель от TincansAI. Способна обрабатывать устные запросы и длинные аудиофайлы напрямую, без предварительной транскрипции или распознавания речи.

Благодаря прямой обработке аудиоданных, модель работает быстрее и точнее, а также способна интерпретировать эмоции и даже сарказм в речи. Код “из коробки” достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход.

Это первая и единственная open source модель, способная вести диалог в реальном времени.

Код
Демо

#speech2text #audio2text #assistant

🔥15

1.69K views18:13

Нейронавт | Нейросети в творчестве

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

VLC automatic subtitles

Опенсорсный плеер VLC анонсировал локальную автоматическую генерацию и перевод субтитров. Когда - пока неизвестно.

Твиттер

#news #audio2text #subtitles

👍15🔥6❤1

1.64K views08:26

Нейронавт | Нейросети в творчестве

MiDashengLM

Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы

Код
Демо
Веса ~50Гб

#audio2text #alm #assistant

🔥5👍2🤔1👀1

1.62K views08:12

About

Blog

Apps

Platform