Нейронавт | Нейросети в творчестве
9.44K subscribers
3.66K photos
3.16K videos
40 files
4.12K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

Модель понимания видео/аудио. Недавно выложены веса VideoLLaMA2-8x7B-Base и VideoLLaMA2-8x7B

Код
Демо
Веса

#VLM #video2text #assistant
🔥9👍3
mPLUG-Owl3

Модель понимания нескольких изображений и длинных видео от Alibaba на базе Qwen2. Заявленная скорость: 2-часовой фильм всего за 4 секунды.

Гитхаб
Демо

#vlm #chatbot #video2text
👍16
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами

По бенчмарку MLVU превосходит GPT-4o

Код
Демо

#mllm #vlm #video2text #image2text #3d2text
👍11
VideoChat2-Flash

Визуально-языковая модель на базе видеокодера (UMT) и LLM (Qwen).


Архитектура с исключительной скоростью инференса позволяет кодировать каждый видеокадр всего в 16 токенов

Есть модели 2B и 7B параметров, разрешение 224 и 448

Гитхаб
Веса
Демо - сейчас не работает

#vlm #video2text
👍8
VideoLLaMA 3

Следующее поколение открытой #VLM

Код
Демо

#image2text #video2text #captioning #assistant
👍6🔥21
SkyReels V2

Новая версия видеогенератора, умеет делать "бесконечные" видео

Выпущены модели 1.3B / 5B / 14B и код

Первая модель с открытым весом, конкурирующая с Sora, Kling и Veo2 на VBench и human evals


Генерация сюжета, генерация видео по картинке, управление камерой (эта модель будет позже), синтез видео из заданных элементов

Гитхаб
Веса
Попробовать (попробуйте создать новый аккаунт если на старом нет кредитов)
————————————

SkyCaptioner-V1

Кэпшнер от SkyReels - модель для структурного текстового описания видео

Веса
Демо ждем

#text2video #image2video #video2text #captioning #text2movie
🔥13👍21
QuickVideo

Ускорение понимания визуально-языковыми моделями длинных видео за счёт параллельного декодирования видео, эффективного предварительного заполнения памяти и совмещения декодирования с анализом, что позволяет добиться рилтайма

Код

#VLM #optimization #video2text #realtime
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Ego-R1

Система для анализа сверхдлинных эгоцентрических видеозаписей (#POV) (длительностью в дни и недели). Использование структурированного процесса Chain-of-Tool-Thought (CoTT) позволяет агенту Ego-R1 шаг за шагом анализировать видео, используя различные инструменты.

Гитхаб

#agent #video2text @reasoning
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Describe Anything: Detailed Localized Image and Video Captioning (DAM)

Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео

Код
Демо

#captioning #image2text #video2text
👍11🔥3🤔1
Kwai Keye-VL

Модель хорошо понимает короткие видео. Keye-VL имеет 8 миллиардов параметров и умеет обрабатывать информацию из видео и текста

Код
Демо
Веса

#vlm #video2text
7👍1
This media is not supported in your browser
VIEW IN TELEGRAM
VideoPrism: A foundational visual encoder for video understanding

Базовая модель понимания видео от Google

Умеет понимать, что происходит в видео, и может выполнять разные задачи, например, классифицировать видео, находить определённые моменты, генерировать описания и отвечать на вопросы по содержанию видео

Гитхаб
HF
Колаб

#vlm #video2text
👍5🔥1
Large Visual Memory Model

Large Visual Memory Model (#LVMM) — это первая в мире модель, которая даёт мультимодальным большим языковым моделям практически неограниченную визуальную память. Она способна не просто хранить, но и эффективно извлекать визуальные данные, анализируя намерения пользователя, находя релевантные фрагменты «памяти» для глубокого анализа и ответов на запросы

Возможности модели:

- хорошо классифицирует видео;

- хорошо ищет видео по запросам;

- отвечает на вопросы про видео;

- создает видео;

- ставит новые рекорды в разных тестах;

- подходит для сложных запросов, где надо накопать много информации.

Есть бесплатный тариф с 500 кредитов в месяц, агентами для создания (!!!) и продвижения видео, плейграундом с загрузкой видео и аудио

Попробовать

#vlmm #assistant #chat #agent #video2text #text2video
👍101
ARC-Hunyuan-Video-7B

Пониматор коротких видео от Tencent

Одновременно обрабатывает картинку и звук.

Знает не только что происходит, но и когда.

Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.

Код
Веса
Демо - вход по китайскому номеру 🤩

#vlm #assistant #video2text
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍2🤯2