AssemblyAI
Инструмент, который переводит видео или аудио в текст. Работает с несколькими языками. Русского пока нет, но Assemblyai постоянно обновляют и добавляют новые языки и возможности.
Из полученного текста сразу можно выделить короткое саммари, упорядочить его по таймкодам и даже анализировать эмоциональную окраску каждой фразы.
Можно за пару минут понять, о чём говорится в длинном гайде на YouTube или в зарубежном новостном подкасте. Инструмент полностью бесплатный.
#video2text #audio2text #tools #video2summary
Инструмент, который переводит видео или аудио в текст. Работает с несколькими языками. Русского пока нет, но Assemblyai постоянно обновляют и добавляют новые языки и возможности.
Из полученного текста сразу можно выделить короткое саммари, упорядочить его по таймкодам и даже анализировать эмоциональную окраску каждой фразы.
Можно за пару минут понять, о чём говорится в длинном гайде на YouTube или в зарубежном новостном подкасте. Инструмент полностью бесплатный.
#video2text #audio2text #tools #video2summary
👍4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Video-LLaMA
Мультимодальная система, понимает и может описать содержимое видео, в том числе и аудио. Криво написал, да? Но надеюсь, все поняли)
Код
Демо
Модель
#audio2text #video2text #LLM
Мультимодальная система, понимает и может описать содержимое видео, в том числе и аудио. Криво написал, да? Но надеюсь, все поняли)
Код
Демо
Модель
#audio2text #video2text #LLM
🔥8
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models
Еще одна модельнедо понимания видео. Ну эта хоты бы заметила на рикролле женщину
Код
Демо
#audio2text #video2text #LLM
Еще одна модель
Код
Демо
#audio2text #video2text #LLM
SALMONN: Speech Audio Language Music Open Neural Network
Распозначание речи, музыки и прочих звуков на основе LLM, с последующим чатом.
Код
Демо
Веса
#chatbot #audio2text
Распозначание речи, музыки и прочих звуков на основе LLM, с последующим чатом.
Код
Демо
Веса
#chatbot #audio2text
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Google научил Gemini 1.5 Pro понимать аудио.
• Распознает слова, тон, эмоции и т д
• Можно скинуть лекцию и получить викторину по содержанию за пару секунд, как на видео
• Выжимка подкастов, лекций и т д
• До 11 часов аудио за раз
• Добавили режим JSON и открыли API без листа ожидания
Попробовать (включайте VPN)
#audio2text #speech2text #assistant
• Распознает слова, тон, эмоции и т д
• Можно скинуть лекцию и получить викторину по содержанию за пару секунд, как на видео
• Выжимка подкастов, лекций и т д
• До 11 часов аудио за раз
• Добавили режим JSON и открыли API без листа ожидания
Попробовать (включайте VPN)
#audio2text #speech2text #assistant
👍11🤯2🔥1
Кулстори про мой мастеркласс.
Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.
Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text
Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.
Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.
Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.
По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.
mymeet.ai - го тестить
Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.
Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text
Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.
Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.
Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.
По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.
mymeet.ai - го тестить
👍9🤡1
Gazelle v0.2
Инновационная open source речевая модель от TincansAI. Способна обрабатывать устные запросы и длинные аудиофайлы напрямую, без предварительной транскрипции или распознавания речи.
Благодаря прямой обработке аудиоданных, модель работает быстрее и точнее, а также способна интерпретировать эмоции и даже сарказм в речи. Код “из коробки” достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход.
Это первая и единственная open source модель, способная вести диалог в реальном времени.
Код
Демо
#speech2text #audio2text #assistant
Инновационная open source речевая модель от TincansAI. Способна обрабатывать устные запросы и длинные аудиофайлы напрямую, без предварительной транскрипции или распознавания речи.
Благодаря прямой обработке аудиоданных, модель работает быстрее и точнее, а также способна интерпретировать эмоции и даже сарказм в речи. Код “из коробки” достигает скорости 120 миллисекунд до первого токена, что значительно быстрее, чем любой другой сопоставимый подход.
Это первая и единственная open source модель, способная вести диалог в реальном времени.
Код
Демо
#speech2text #audio2text #assistant
🔥15
This media is not supported in your browser
VIEW IN TELEGRAM
VLC automatic subtitles
Опенсорсный плеер VLC анонсировал локальную автоматическую генерацию и перевод субтитров. Когда - пока неизвестно.
Твиттер
#news #audio2text #subtitles
Опенсорсный плеер VLC анонсировал локальную автоматическую генерацию и перевод субтитров. Когда - пока неизвестно.
Твиттер
#news #audio2text #subtitles
👍15🔥6❤1
MiDashengLM
Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы
Код
Демо
Веса ~50Гб
#audio2text #alm #assistant
Модель понимания аудио от Xiaomi, #sota
Распознает тембр голоса, музыкальные инструменты, прочие звуки, отвечает на вопросы
Код
Демо
Веса ~50Гб
#audio2text #alm #assistant
🔥5👍2🤔1👀1