Нейронавт | Нейросети в творчестве
9.44K subscribers
3.66K photos
3.16K videos
40 files
4.12K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models

Еще одна модель недопонимания видео. Ну эта хоты бы заметила на рикролле женщину

Код

Демо

#audio2text #video2text #LLM
В обновлении Яндекс браузера прикрутили фичу краткий пересказ видео.
Теперь длинные видео можно прочитать за пару минут.
Как я жил без этого?

#summary #video2text #video2summary
🔥10😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Pegasus-1

Какое название подойдет чтобы конкурировать с Eleven Labs? Правильно, Twelve Labs. И вот они объявляют (твиттер) о релизе своей базовой модели преобразования видео в текст. Уверяют что их модель анализирует именно видеоданные. Аудио и речь, конечно, тоже.

Записаться в вейтлист

#video2text
🔥3
Video ReCap: Recursive Captioning of Hour-Long Videos

Текстовое описание длинных видео (1 час) от Meta AI

Код

#captioning #video2text
😁2
Кулстори про мой мастеркласс.

Пока готовился, решил освежить в памяти как я давал подобные мастерклассы в офлайне. Да, было такое.

Достаю архивные аудио/видео и понимаю что нет времени/желания переслушивать все это целиком. Вот бы получить в систематизированном видео ключевые моменты, а лучше с полным конспектом на всякий случай. Вообще нетрудно найти нужное, полистав у меня на канале теги #summary #video2text #audio2text #speech2text

Но мне как раз недавно попался свежий сервис mymeet.ai на базе ChayGPT-4. От русскоязычных разработчиков, значит проблем с русским языком должно быть минимум. Заявлена расшифровка любых аудио и видео, интеграция в Google Meet и Zoom.

Закинул в него аудио. Ограничение на объем файла - 1Гб на бесплатном тарифе, поэтому видео не пролезло. Через пару минут получаю готовую полную расшифровку и выжимку. Можно скопировать форматированный текст и дальше делать с ним что угодно. Сервис различает спикеров, что позволило мне сосредоточиться только на своих репликах и быстро составить план нового мастеркласса.

Запись у меня была с говномикрофона, все как мы любим для стресс-теста. В расшифровке некоторые фразы неточно определились. Думаю: мы же живем в эпоху магии, почему все так неидеально? Написал разработчикам, так, мол и так, у вас ошибки, хочу расшифровку точнее. Ответили в течение дня с просьбой прислать примеры плохой расшифровки и обещанием доработать. По их словам, сейчас точность определения 96%, чего вполне хватает для стандартных звонков.

По поводу триалки - дают обработать 180 минут. Много это или мало - решайте сами, мне хватило обработать 3 больших выступления. Ну и если вам постоянно или периодически нужен такой инструмент, платные тарифы весьма приемлемые.

mymeet.ai - го тестить
👍9🤡1
VILA: On Pre-training for Visual Language Models

NVIDIA. #VLM пониматор картинок и видео с открытым исходным кодом.

Код
Демо

#video2text #image2text
👍14
This media is not supported in your browser
VIEW IN TELEGRAM
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

Модель для подробного описания видео. Генерировать видео по тексту тоже умеет, но качество 🫤

Код
Демо (описание)
Демо (генерация)

#captioning #vlm #video2text #text2video
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
LongVA

Конкурент Gemini в понимании длинных видео.
Демо периодически тупит, не видит загруженное видео.
Очень долго колупался пытаясь показать ей длинное видео - не получается. Делает вид что никакого видео не было. Спишем это на кривизну демки.

Иногда в порядке исключения видит и отвечает на вопросы.
Русский на видео, похоже, не понимает.

Гитхаб
Демо

#summary #VLM #video2text
👍5👀2😁1
Media is too big
VIEW IN TELEGRAM
Goldfish: Vision-Language Understanding of Arbitrarily Long Videos

Модель понимания видео на MiniGPT4-video. По бенчмаркам авторы показывают превосходство над конкурентами на длинных и коротких видео.

Код
Демо (очередь медленно двигается)

#vlm #chatbot #video2text
3👍1