Нейронавт | Нейросети в творчестве

HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

Мультимодальный генератор видео с кастомизацией-персонализацией по нескольким объектам.
На вход принимает текст, картинки, видео и даже звук.
Внутри LlaVa

Вопрос: сколько нужно VRAM?
Ответ: весь, готовьте H100 или ждите квантайзы с оффлоудами

Код
Веса
Попробовать (регайтесь через имейл)
ComfyUI ждем

#text2video #image2video #audio2video #video2video #personalization #multisubject

👍7❤1

2.13K views13:16

🚀HunyuanCustom ComfyUI

Ждать пришлось недолго. Киджай сделал тестовый воркфлоу

1️⃣ Скачать модель fp8_scaled
2️⃣ Обновить #ComfyUI, ComfyUI-HunyuanVideoWrapper и ComfyUI-KJNodes до последней версии
3️⃣ настройте параметры воркфлоу: включите cfg = 7.5, отключите use_cfg_zero_star и выставьте разрешение 720p

#text2video #image2video #audio2video #video2video #personalization #multisubject

0:40

Нейронавт | Нейросети в творчестве

👍8

2.12K views09:37

Нейронавт | Нейросети в творчестве

XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

Генератор картинок по тексту от ByteDance

Позволяет точно управлять несколькими объектами в одном изображении.

Детальная настройка семантических атрибутов, таких как поза, стиль и освещение

Код
Веса 1.2Gb + 1.8Gb - и что сегодня можно выжать из таких весов?
Демо ждем

#text2image #subjectcontrol #multisubject

👍4🤔4

1.83K views15:00

About

Blog

Apps

Platform