This media is not supported in your browser
VIEW IN TELEGRAM
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
Модель понимания видео/аудио. Недавно выложены веса VideoLLaMA2-8x7B-Base и VideoLLaMA2-8x7B
Код
Демо
Веса
#VLM #video2text #assistant
Модель понимания видео/аудио. Недавно выложены веса VideoLLaMA2-8x7B-Base и VideoLLaMA2-8x7B
Код
Демо
Веса
#VLM #video2text #assistant
🔥9👍3
mPLUG-Owl3
Модель понимания нескольких изображений и длинных видео от Alibaba на базе Qwen2. Заявленная скорость: 2-часовой фильм всего за 4 секунды.
Гитхаб
Демо
#vlm #chatbot #video2text
Модель понимания нескольких изображений и длинных видео от Alibaba на базе Qwen2. Заявленная скорость: 2-часовой фильм всего за 4 секунды.
Гитхаб
Демо
#vlm #chatbot #video2text
👍16
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
👍11
VideoChat2-Flash
Визуально-языковая модель на базе видеокодера (UMT) и LLM (Qwen).
Архитектура с исключительной скоростью инференса позволяет кодировать каждый видеокадр всего в 16 токенов
Есть модели 2B и 7B параметров, разрешение 224 и 448
Гитхаб
Веса
Демо - сейчас не работает
#vlm #video2text
Визуально-языковая модель на базе видеокодера (UMT) и LLM (Qwen).
Архитектура с исключительной скоростью инференса позволяет кодировать каждый видеокадр всего в 16 токенов
Есть модели 2B и 7B параметров, разрешение 224 и 448
Гитхаб
Веса
Демо - сейчас не работает
#vlm #video2text
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
SkyReels V2
Новая версия видеогенератора, умеет делать "бесконечные" видео
Выпущены модели 1.3B / 5B / 14B и код
Генерация сюжета, генерация видео по картинке, управление камерой (эта модель будет позже), синтез видео из заданных элементов
Гитхаб
Веса
Попробовать (попробуйте создать новый аккаунт если на старом нет кредитов)
————————————
SkyCaptioner-V1
Кэпшнер от SkyReels - модель для структурного текстового описания видео
Веса
Демо ждем
#text2video #image2video #video2text #captioning #text2movie
Новая версия видеогенератора, умеет делать "бесконечные" видео
Выпущены модели 1.3B / 5B / 14B и код
Первая модель с открытым весом, конкурирующая с Sora, Kling и Veo2 на VBench и human evals
Генерация сюжета, генерация видео по картинке, управление камерой (эта модель будет позже), синтез видео из заданных элементов
Гитхаб
Веса
Попробовать (попробуйте создать новый аккаунт если на старом нет кредитов)
————————————
SkyCaptioner-V1
Кэпшнер от SkyReels - модель для структурного текстового описания видео
Веса
Демо ждем
#text2video #image2video #video2text #captioning #text2movie
🔥13👍2❤1
QuickVideo
Ускорение понимания визуально-языковыми моделями длинных видео за счёт параллельного декодирования видео, эффективного предварительного заполнения памяти и совмещения декодирования с анализом, что позволяет добиться рилтайма
Код
#VLM #optimization #video2text #realtime
Ускорение понимания визуально-языковыми моделями длинных видео за счёт параллельного декодирования видео, эффективного предварительного заполнения памяти и совмещения декодирования с анализом, что позволяет добиться рилтайма
Код
#VLM #optimization #video2text #realtime
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Ego-R1
Система для анализа сверхдлинных эгоцентрических видеозаписей (#POV) (длительностью в дни и недели). Использование структурированного процесса Chain-of-Tool-Thought (CoTT) позволяет агенту Ego-R1 шаг за шагом анализировать видео, используя различные инструменты.
Гитхаб
#agent #video2text @reasoning
Система для анализа сверхдлинных эгоцентрических видеозаписей (#POV) (длительностью в дни и недели). Использование структурированного процесса Chain-of-Tool-Thought (CoTT) позволяет агенту Ego-R1 шаг за шагом анализировать видео, используя различные инструменты.
Гитхаб
#agent #video2text @reasoning
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Describe Anything: Detailed Localized Image and Video Captioning (DAM)
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
👍11🔥3🤔1
Kwai Keye-VL
Модель хорошо понимает короткие видео. Keye-VL имеет 8 миллиардов параметров и умеет обрабатывать информацию из видео и текста
Код
Демо
Веса
#vlm #video2text
Модель хорошо понимает короткие видео. Keye-VL имеет 8 миллиардов параметров и умеет обрабатывать информацию из видео и текста
Код
Демо
Веса
#vlm #video2text
❤7👍1
This media is not supported in your browser
VIEW IN TELEGRAM
VideoPrism: A foundational visual encoder for video understanding
Базовая модель понимания видео от Google
Умеет понимать, что происходит в видео, и может выполнять разные задачи, например, классифицировать видео, находить определённые моменты, генерировать описания и отвечать на вопросы по содержанию видео
Гитхаб
HF
Колаб
#vlm #video2text
Базовая модель понимания видео от Google
Умеет понимать, что происходит в видео, и может выполнять разные задачи, например, классифицировать видео, находить определённые моменты, генерировать описания и отвечать на вопросы по содержанию видео
Гитхаб
HF
Колаб
#vlm #video2text
👍5🔥1
Large Visual Memory Model
Large Visual Memory Model (#LVMM) — это первая в мире модель, которая даёт мультимодальным большим языковым моделям практически неограниченную визуальную память. Она способна не просто хранить, но и эффективно извлекать визуальные данные, анализируя намерения пользователя, находя релевантные фрагменты «памяти» для глубокого анализа и ответов на запросы
Возможности модели:
- хорошо классифицирует видео;
- хорошо ищет видео по запросам;
- отвечает на вопросы про видео;
- создает видео;
- ставит новые рекорды в разных тестах;
- подходит для сложных запросов, где надо накопать много информации.
Есть бесплатный тариф с 500 кредитов в месяц, агентами для создания (!!!) и продвижения видео, плейграундом с загрузкой видео и аудио
Попробовать
#vlmm #assistant #chat #agent #video2text #text2video
Large Visual Memory Model (#LVMM) — это первая в мире модель, которая даёт мультимодальным большим языковым моделям практически неограниченную визуальную память. Она способна не просто хранить, но и эффективно извлекать визуальные данные, анализируя намерения пользователя, находя релевантные фрагменты «памяти» для глубокого анализа и ответов на запросы
Возможности модели:
- хорошо классифицирует видео;
- хорошо ищет видео по запросам;
- отвечает на вопросы про видео;
- создает видео;
- ставит новые рекорды в разных тестах;
- подходит для сложных запросов, где надо накопать много информации.
Есть бесплатный тариф с 500 кредитов в месяц, агентами для создания (!!!) и продвижения видео, плейграундом с загрузкой видео и аудио
Попробовать
#vlmm #assistant #chat #agent #video2text #text2video
👍10❤1
ARC-Hunyuan-Video-7B
Пониматор коротких видео от Tencent
Одновременно обрабатывает картинку и звук.
Знает не только что происходит, но и когда.
Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.
Код
Веса
Демо - вход по китайскому номеру🤩
#vlm #assistant #video2text
Пониматор коротких видео от Tencent
Одновременно обрабатывает картинку и звук.
Знает не только что происходит, но и когда.
Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.
Код
Веса
Демо - вход по китайскому номеру
#vlm #assistant #video2text
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍2🤯2