Нейронавт | Нейросети в творчестве – Telegram

Нейронавт | Нейросети в творчестве

@GreenNeuralRobots

9.44K subscribers

3.66K photos

3.16K videos

40 files

4.12K links

Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

About

Blog

Apps

Platform

Нейронавт | Нейросети в творчестве

9.44K subscribers

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

Модель понимания видео/аудио. Недавно выложены веса VideoLLaMA2-8x7B-Base и VideoLLaMA2-8x7B

Код
Демо
Веса

#VLM #video2text #assistant

🔥9👍3

1.64K viewsedited 11:19

Нейронавт | Нейросети в творчестве

mPLUG-Owl3

Модель понимания нескольких изображений и длинных видео от Alibaba на базе Qwen2. Заявленная скорость: 2-часовой фильм всего за 4 секунды.

Гитхаб
Демо

#vlm #chatbot #video2text

👍16

2.01K views11:54

Нейронавт | Нейросети в творчестве

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами

По бенчмарку MLVU превосходит GPT-4o

Код
Демо

#mllm #vlm #video2text #image2text #3d2text

👍11

1.57K viewsedited 07:01

Нейронавт | Нейросети в творчестве

VideoChat2-Flash

Визуально-языковая модель на базе видеокодера (UMT) и LLM (Qwen).

Архитектура с исключительной скоростью инференса позволяет кодировать каждый видеокадр всего в 16 токенов

Есть модели 2B и 7B параметров, разрешение 224 и 448

Гитхаб
Веса
Демо - сейчас не работает

#vlm #video2text

👍8

1.61K views09:47

Нейронавт | Нейросети в творчестве

VideoLLaMA 3

Следующее поколение открытой #VLM

Код
Демо

#image2text #video2text #captioning #assistant

👍6🔥2❤1

1.62K viewsedited 11:14

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

SkyReels V2

Новая версия видеогенератора, умеет делать "бесконечные" видео

Выпущены модели 1.3B / 5B / 14B и код

Первая модель с открытым весом, конкурирующая с Sora, Kling и Veo2 на VBench и human evals

Генерация сюжета, генерация видео по картинке, управление камерой (эта модель будет позже), синтез видео из заданных элементов

Гитхаб
Веса
Попробовать (попробуйте создать новый аккаунт если на старом нет кредитов)
————————————

SkyCaptioner-V1

Кэпшнер от SkyReels - модель для структурного текстового описания видео

Веса
Демо ждем

#text2video #image2video #video2text #captioning #text2movie

🔥13👍2❤1

2.2K views08:53

Нейронавт | Нейросети в творчестве

QuickVideo

Ускорение понимания визуально-языковыми моделями длинных видео за счёт параллельного декодирования видео, эффективного предварительного заполнения памяти и совмещения декодирования с анализом, что позволяет добиться рилтайма

Код

#VLM #optimization #video2text #realtime

👍5

1.87K views07:41

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Ego-R1

Система для анализа сверхдлинных эгоцентрических видеозаписей (#POV) (длительностью в дни и недели). Использование структурированного процесса Chain-of-Tool-Thought (CoTT) позволяет агенту Ego-R1 шаг за шагом анализировать видео, используя различные инструменты.

Гитхаб

#agent #video2text @reasoning

👍8

1.72K views08:11

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Describe Anything: Detailed Localized Image and Video Captioning (DAM)

Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео

Код
Демо

#captioning #image2text #video2text

👍11🔥3🤔1

1.82K views10:13

Нейронавт | Нейросети в творчестве

Kwai Keye-VL

Модель хорошо понимает короткие видео. Keye-VL имеет 8 миллиардов параметров и умеет обрабатывать информацию из видео и текста

Код
Демо
Веса

#vlm #video2text

❤7👍1

1.73K views06:01

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

VideoPrism: A foundational visual encoder for video understanding

Базовая модель понимания видео от Google

Умеет понимать, что происходит в видео, и может выполнять разные задачи, например, классифицировать видео, находить определённые моменты, генерировать описания и отвечать на вопросы по содержанию видео

Гитхаб
HF
Колаб

#vlm #video2text

👍5🔥1

1.59K views10:13

Нейронавт | Нейросети в творчестве

Media is too big

VIEW IN TELEGRAM

Large Visual Memory Model

Large Visual Memory Model (#LVMM) — это первая в мире модель, которая даёт мультимодальным большим языковым моделям практически неограниченную визуальную память. Она способна не просто хранить, но и эффективно извлекать визуальные данные, анализируя намерения пользователя, находя релевантные фрагменты «памяти» для глубокого анализа и ответов на запросы

Возможности модели:

- хорошо классифицирует видео;

- хорошо ищет видео по запросам;

- отвечает на вопросы про видео;

- создает видео;

- ставит новые рекорды в разных тестах;

- подходит для сложных запросов, где надо накопать много информации.

Есть бесплатный тариф с 500 кредитов в месяц, агентами для создания (!!!) и продвижения видео, плейграундом с загрузкой видео и аудио

Попробовать

#vlmm #assistant #chat #agent #video2text #text2video

👍10❤1

1.51K views12:33

Нейронавт | Нейросети в творчестве

ARC-Hunyuan-Video-7B

Пониматор коротких видео от Tencent

Одновременно обрабатывает картинку и звук.

Знает не только что происходит, но и когда.

Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.

Код
Веса
Демо - вход по китайскому номеру 🤩

#vlm #assistant #video2text

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍2🤯2

1.93K viewsedited 15:51