Нейронавт | Нейросети в творчестве

Video ReCap: Recursive Captioning of Hour-Long Videos

Текстовое описание длинных видео (1 час) от Meta AI

Код

#captioning #video2text

😁2

2.19K views11:59

This media is not supported in your browser

VIEW IN TELEGRAM

MiniGPT4-video

Модель понимания видео

Код
Демо
Демо2

#vlm #chatbot #video2text

🔥3

1.52K views05:01

Нейронавт | Нейросети в творчестве

Кулстори про мой мастеркласс.

Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.

Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text

Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.

Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.

Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.

По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.

mymeet.ai - го тестить

👍9🤡1

1.44K views10:04

Нейронавт | Нейросети в творчестве

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

VILA: On Pre-training for Visual Language Models

NVIDIA. #VLM пониматор картинок и видео с открытым исходным кодом.

Код
Демо

#video2text #image2text

👍14

1.74K views07:51

Нейронавт | Нейросети в творчестве

1:51

This media is not supported in your browser

VIEW IN TELEGRAM

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

Модель для подробного описания видео. Генерировать видео по тексту тоже умеет, но качество 🫤

Код
Демо (описание)
Демо (генерация)

#captioning #vlm #video2text #text2video

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

1.46K views07:24

Нейронавт | Нейросети в творчестве

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

LongVA

Конкурент Gemini в понимании длинных видео.
Демо периодически тупит, не видит загруженное видео.
Очень долго колупался пытаясь показать ей длинное видео - не получается. Делает вид что никакого видео не было. Спишем это на кривизну демки.

Иногда в порядке исключения видит и отвечает на вопросы.
Русский на видео, похоже, не понимает.

Гитхаб
Демо

#summary #VLM #video2text

👍5👀2😁1

1.15K views10:51

Нейронавт | Нейросети в творчестве

1:23

Media is too big

VIEW IN TELEGRAM

Goldfish: Vision-Language Understanding of Arbitrarily Long Videos

Модель понимания видео на MiniGPT4-video. По бенчмаркам авторы показывают превосходство над конкурентами на длинных и коротких видео.

Код
Демо (очередь медленно двигается)

#vlm #chatbot #video2text

❤3👍1

1.33K views09:34

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs

Модель понимания видео/аудио. Недавно выложены веса VideoLLaMA2-8x7B-Base и VideoLLaMA2-8x7B

Код
Демо
Веса

#VLM #video2text #assistant

🔥9👍3

1.64K viewsedited 11:19

Нейронавт | Нейросети в творчестве

mPLUG-Owl3

Модель понимания нескольких изображений и длинных видео от Alibaba на базе Qwen2. Заявленная скорость: 2-часовой фильм всего за 4 секунды.

Гитхаб
Демо

#vlm #chatbot #video2text

👍16

2.01K views11:54

Нейронавт | Нейросети в творчестве

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами

По бенчмарку MLVU превосходит GPT-4o

Код
Демо

#mllm #vlm #video2text #image2text #3d2text

👍11

1.57K viewsedited 07:01

Нейронавт | Нейросети в творчестве

VideoChat2-Flash

Визуально-языковая модель на базе видеокодера (UMT) и LLM (Qwen).

Архитектура с исключительной скоростью инференса позволяет кодировать каждый видеокадр всего в 16 токенов

Есть модели 2B и 7B параметров, разрешение 224 и 448

Гитхаб
Веса
Демо - сейчас не работает

#vlm #video2text

👍8

1.61K views09:47

Нейронавт | Нейросети в творчестве

VideoLLaMA 3

Следующее поколение открытой #VLM

Код
Демо

#image2text #video2text #captioning #assistant

👍6🔥2❤1

1.62K viewsedited 11:14

Нейронавт | Нейросети в творчестве