Нейронавт | Нейросети в творчестве
9.25K subscribers
3.53K photos
3.05K videos
40 files
4.02K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Video ReCap: Recursive Captioning of Hour-Long Videos

Текстовое описание длинных видео (1 час) от Meta AI

Код

#captioning #video2text
😁2
This media is not supported in your browser
VIEW IN TELEGRAM
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

Модель для подробного описания видео. Генерировать видео по тексту тоже умеет, но качество 🫤

Код
Демо (описание)
Демо (генерация)

#captioning #vlm #video2text #text2video
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
HunyuanDiT-v1.2 / HunyuanCaptioner

Новая версия китайского генератора картинок. Лично меня он не впечатляет.
Но выкатили еще и генератор описаний, который может описывать картинки по английски

Репозиторий
Демо HunyuanCaptioner

#text2image #image2text #captioning
👍4
FLUX Prompt Generator

Тут можно генерить/раскрычивать промпты для #Flux по ключевым словам или небольшому промпту.
А можно и обратно, по картинке.

#image2text #captioning #text2text #prompting
🔥15👎1
JoyCaption Alpha One

Обновился инструмент для текстового описания изображений JoyCaption

- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Descriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано

#image2text #captioning
👍62
JoyCaption Alpha 2 - Batch Script

Скрипт для пакетной обработки картинок в JoyCaption.

Для Alpha 2 требуется ~ 22 ГБ видеопамяти.
Для режима Low VRAM требуется ~ 10 ГБ видеопамяти.
Режим Low VRAM работает только в pre-alpha версии

Реддит

#image2text #captioning
👍31
VideoLLaMA 3

Следующее поколение открытой #VLM

Код
Демо

#image2text #video2text #captioning #assistant
👍6🔥21
SkyReels V2

Новая версия видеогенератора, умеет делать "бесконечные" видео

Выпущены модели 1.3B / 5B / 14B и код

Первая модель с открытым весом, конкурирующая с Sora, Kling и Veo2 на VBench и human evals


Генерация сюжета, генерация видео по картинке, управление камерой (эта модель будет позже), синтез видео из заданных элементов

Гитхаб
Веса
Попробовать (попробуйте создать новый аккаунт если на старом нет кредитов)
————————————

SkyCaptioner-V1

Кэпшнер от SkyReels - модель для структурного текстового описания видео

Веса
Демо ждем

#text2video #image2video #video2text #captioning #text2movie
🔥13👍21
JoyCaption Beta One

Вышла новая бета версия открытой модели для текстового описания изображений

Ключевые функции

• Свободный и открытый: без ограничений, с открытым весом.
• Без цензуры: равный охват SFW и NSFW.
• Разнообразие: широкий охват стилей изображений и содержания.
• Минимальная фильтрация: обучение на больших массивах изображений.

Что нового

• Больше тренировок: 2,4 миллиона обучающих выборок.
• Простой режим: золотая середина между многословными и лаконичными режимами.
• Настройки тегирования Booru: стабилизация и повышение полезности.
• Точность водяных знаков: обновление учебных данных.
• VQA: добавление данных для расширения диапазона инструкций.
• Увеличение количества тегов: поддержка указания списка тегов booru.
• Обучение с подкреплением: устранение проблем с Alpha Two.

Предостережения

• JoyCaption далек от совершенства, возможны сбои.
• Частота сбоев снижена, но все еще высока.
• Некоторые запросы NSFW могут вызывать отказ, но это не намеренно.

Гитхаб
Демо
HF
Civitai

#image2text #captioning #vlm
👍9👌1
Tar: Unifying Visual Understanding and Generation via Text-Aligned Representations

Генератор-пониматор изображений от команды с участием ByteDnace Seed

Код
Демо - 512/1024

#text2image #image2text #captioning
👍4
Ovis-U1

Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений

- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.

- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.

- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.

Код
Веса
Демо

#vlm #text2image #imageediting #captioning #image2text
👍8🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Describe Anything: Detailed Localized Image and Video Captioning (DAM)

Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео

Код
Демо

#captioning #image2text #video2text
👍11🔥3🤔1
VLM Image Captioning Tool

Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.

Поддерживает большинство VLM провайдеров, в том числе локальные VLM

Видео

#captioning #image2text #vlm
👍53
This media is not supported in your browser
VIEW IN TELEGRAM
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

Базовая визуально-языковая модель понимания 3D сцен/
Умеет описывать сцены, отвечать на вопросы о них, планировать действия в виртуальном пространстве

Код
Веса

#vlm #3d #3dvlm #assistant #captioning
🔥8👍1