Video ReCap: Recursive Captioning of Hour-Long Videos
Текстовое описание длинных видео (1 час) от Meta AI
Код
#captioning #video2text
Текстовое описание длинных видео (1 час) от Meta AI
Код
#captioning #video2text
😁2
Кулстори про мой мастеркласс.
Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.
Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text
Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.
Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.
Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.
По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.
mymeet.ai - го тестить
Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.
Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text
Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.
Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.
Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.
По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.
mymeet.ai - го тестить
👍9🤡1
VILA: On Pre-training for Visual Language Models
NVIDIA. #VLM пониматор картинок и видео с открытым исходным кодом.
Код
Демо
#video2text #image2text
NVIDIA. #VLM пониматор картинок и видео с открытым исходным кодом.
Код
Демо
#video2text #image2text
👍14
This media is not supported in your browser
VIEW IN TELEGRAM
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions
Модель для подробного описания видео. Генерировать видео по тексту тоже умеет, но качество🫤
Код
Демо (описание)
Демо (генерация)
#captioning #vlm #video2text #text2video
Модель для подробного описания видео. Генерировать видео по тексту тоже умеет, но качество
Код
Демо (описание)
Демо (генерация)
#captioning #vlm #video2text #text2video
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
LongVA
Конкурент Gemini в понимании длинных видео.
Демо периодически тупит, не видит загруженное видео.
Очень долго колупался пытаясь показать ей длинное видео - не получается. Делает вид что никакого видео не было. Спишем это на кривизну демки.
Иногда в порядке исключения видит и отвечает на вопросы.
Русский на видео, похоже, не понимает.
Гитхаб
Демо
#summary #VLM #video2text
Конкурент Gemini в понимании длинных видео.
Демо периодически тупит, не видит загруженное видео.
Очень долго колупался пытаясь показать ей длинное видео - не получается. Делает вид что никакого видео не было. Спишем это на кривизну демки.
Иногда в порядке исключения видит и отвечает на вопросы.
Русский на видео, похоже, не понимает.
Гитхаб
Демо
#summary #VLM #video2text
👍5👀2😁1
Media is too big
VIEW IN TELEGRAM
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos
Модель понимания видео на MiniGPT4-video. По бенчмаркам авторы показывают превосходство над конкурентами на длинных и коротких видео.
Код
Демо (очередь медленно двигается)
#vlm #chatbot #video2text
Модель понимания видео на MiniGPT4-video. По бенчмаркам авторы показывают превосходство над конкурентами на длинных и коротких видео.
Код
Демо (очередь медленно двигается)
#vlm #chatbot #video2text
❤3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
Модель понимания видео/аудио. Недавно выложены веса VideoLLaMA2-8x7B-Base и VideoLLaMA2-8x7B
Код
Демо
Веса
#VLM #video2text #assistant
Модель понимания видео/аудио. Недавно выложены веса VideoLLaMA2-8x7B-Base и VideoLLaMA2-8x7B
Код
Демо
Веса
#VLM #video2text #assistant
🔥9👍3
mPLUG-Owl3
Модель понимания нескольких изображений и длинных видео от Alibaba на базе Qwen2. Заявленная скорость: 2-часовой фильм всего за 4 секунды.
Гитхаб
Демо
#vlm #chatbot #video2text
Модель понимания нескольких изображений и длинных видео от Alibaba на базе Qwen2. Заявленная скорость: 2-часовой фильм всего за 4 секунды.
Гитхаб
Демо
#vlm #chatbot #video2text
👍16
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
👍11
VideoChat2-Flash
Визуально-языковая модель на базе видеокодера (UMT) и LLM (Qwen).
Архитектура с исключительной скоростью инференса позволяет кодировать каждый видеокадр всего в 16 токенов
Есть модели 2B и 7B параметров, разрешение 224 и 448
Гитхаб
Веса
Демо - сейчас не работает
#vlm #video2text
Визуально-языковая модель на базе видеокодера (UMT) и LLM (Qwen).
Архитектура с исключительной скоростью инференса позволяет кодировать каждый видеокадр всего в 16 токенов
Есть модели 2B и 7B параметров, разрешение 224 и 448
Гитхаб
Веса
Демо - сейчас не работает
#vlm #video2text
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V2
Новая версия видеогенератора, умеет делать "бесконечные" видео
Выпущены модели 1.3B / 5B / 14B и код
Генерация сюжета, генерация видео по картинке, управление камерой (эта модель будет позже), синтез видео из заданных элементов
Гитхаб
Веса
Попробовать (попробуйте создать новый аккаунт если на старом нет кредитов)
————————————
SkyCaptioner-V1
Кэпшнер от SkyReels - модель для структурного текстового описания видео
Веса
Демо ждем
#text2video #image2video #video2text #captioning #text2movie
Новая версия видеогенератора, умеет делать "бесконечные" видео
Выпущены модели 1.3B / 5B / 14B и код
Первая модель с открытым весом, конкурирующая с Sora, Kling и Veo2 на VBench и human evals
Генерация сюжета, генерация видео по картинке, управление камерой (эта модель будет позже), синтез видео из заданных элементов
Гитхаб
Веса
Попробовать (попробуйте создать новый аккаунт если на старом нет кредитов)
————————————
SkyCaptioner-V1
Кэпшнер от SkyReels - модель для структурного текстового описания видео
Веса
Демо ждем
#text2video #image2video #video2text #captioning #text2movie
🔥13👍2❤1
QuickVideo
Ускорение понимания визуально-языковыми моделями длинных видео за счёт параллельного декодирования видео, эффективного предварительного заполнения памяти и совмещения декодирования с анализом, что позволяет добиться рилтайма
Код
#VLM #optimization #video2text #realtime
Ускорение понимания визуально-языковыми моделями длинных видео за счёт параллельного декодирования видео, эффективного предварительного заполнения памяти и совмещения декодирования с анализом, что позволяет добиться рилтайма
Код
#VLM #optimization #video2text #realtime
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Ego-R1
Система для анализа сверхдлинных эгоцентрических видеозаписей (#POV) (длительностью в дни и недели). Использование структурированного процесса Chain-of-Tool-Thought (CoTT) позволяет агенту Ego-R1 шаг за шагом анализировать видео, используя различные инструменты.
Гитхаб
#agent #video2text @reasoning
Система для анализа сверхдлинных эгоцентрических видеозаписей (#POV) (длительностью в дни и недели). Использование структурированного процесса Chain-of-Tool-Thought (CoTT) позволяет агенту Ego-R1 шаг за шагом анализировать видео, используя различные инструменты.
Гитхаб
#agent #video2text @reasoning
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Describe Anything: Detailed Localized Image and Video Captioning (DAM)
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
👍11🔥3🤔1
Kwai Keye-VL
Модель хорошо понимает короткие видео. Keye-VL имеет 8 миллиардов параметров и умеет обрабатывать информацию из видео и текста
Код
Демо
Веса
#vlm #video2text
Модель хорошо понимает короткие видео. Keye-VL имеет 8 миллиардов параметров и умеет обрабатывать информацию из видео и текста
Код
Демо
Веса
#vlm #video2text
❤7👍1
This media is not supported in your browser
VIEW IN TELEGRAM
VideoPrism: A foundational visual encoder for video understanding
Базовая модель понимания видео от Google
Умеет понимать, что происходит в видео, и может выполнять разные задачи, например, классифицировать видео, находить определённые моменты, генерировать описания и отвечать на вопросы по содержанию видео
Гитхаб
HF
Колаб
#vlm #video2text
Базовая модель понимания видео от Google
Умеет понимать, что происходит в видео, и может выполнять разные задачи, например, классифицировать видео, находить определённые моменты, генерировать описания и отвечать на вопросы по содержанию видео
Гитхаб
HF
Колаб
#vlm #video2text
👍5🔥1
Large Visual Memory Model
Large Visual Memory Model (#LVMM) — это первая в мире модель, которая даёт мультимодальным большим языковым моделям практически неограниченную визуальную память. Она способна не просто хранить, но и эффективно извлекать визуальные данные, анализируя намерения пользователя, находя релевантные фрагменты «памяти» для глубокого анализа и ответов на запросы
Возможности модели:
- хорошо классифицирует видео;
- хорошо ищет видео по запросам;
- отвечает на вопросы про видео;
- создает видео;
- ставит новые рекорды в разных тестах;
- подходит для сложных запросов, где надо накопать много информации.
Есть бесплатный тариф с 500 кредитов в месяц, агентами для создания (!!!) и продвижения видео, плейграундом с загрузкой видео и аудио
Попробовать
#vlmm #assistant #chat #agent #video2text #text2video
Large Visual Memory Model (#LVMM) — это первая в мире модель, которая даёт мультимодальным большим языковым моделям практически неограниченную визуальную память. Она способна не просто хранить, но и эффективно извлекать визуальные данные, анализируя намерения пользователя, находя релевантные фрагменты «памяти» для глубокого анализа и ответов на запросы
Возможности модели:
- хорошо классифицирует видео;
- хорошо ищет видео по запросам;
- отвечает на вопросы про видео;
- создает видео;
- ставит новые рекорды в разных тестах;
- подходит для сложных запросов, где надо накопать много информации.
Есть бесплатный тариф с 500 кредитов в месяц, агентами для создания (!!!) и продвижения видео, плейграундом с загрузкой видео и аудио
Попробовать
#vlmm #assistant #chat #agent #video2text #text2video
👍10❤1
ARC-Hunyuan-Video-7B
Пониматор коротких видео от Tencent
Одновременно обрабатывает картинку и звук.
Знает не только что происходит, но и когда.
Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.
Код
Веса
Демо - вход по китайскому номеру🤩
#vlm #assistant #video2text
Пониматор коротких видео от Tencent
Одновременно обрабатывает картинку и звук.
Знает не только что происходит, но и когда.
Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.
Код
Веса
Демо - вход по китайскому номеру
#vlm #assistant #video2text
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍2🤯2