Machinelearning

🌟 CogView-3Plus-3B: модель генерации Text-to-Image.

CogView-3-Plus - генеративная модель на архитектуре DiT из недавно представленного на ECCV'24 семейства CogView3.

CogView-3-Plus использует диффузионный шедулер Zero-SNR и VAE с latent dimension 16. По сравнению с MMDiT, она эффективней в обучении и инференсе при сохранении основных возможностей модели.

Технические параметры:

🟢Архитектура: DiT;

🟢Количество параметров: 3 млрд.;

🟢Разрешение: от 512 до 2048, кратное 32;

🟢Разрядности: FP32, BF16 (рекомендуется);

🟢VRAM: 20Gb (1024x1024), 30Gb (2048x2048);

🟢СPU Offload: есть, при его использовании, VRAM для всех поддерживаемых разрешений - 11Gb;

🟢Язык промпта: English;

🟢Max. длина промпта: 244 токена.

Инференс модели возможен в СLI (diffusers, SAT) и в WebUI на Gradio.

⚠️ В файле запуска Gradio используется функция улучшения промпта через ChatGPT (строки 37-112), для ее использования понадобится OpenAI API KEY.

⚠️ Модели серии CogView3 обучаются на длинных аннотациях изображений, поэтому рекомендуется использовать LLM-образные промпты для генерации, это значительно улучшит качество инференса.

📌Лицензирование : Apache 2.0 License.

🟡

Модель

🟡

Arxiv

🟡

Demo

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #T2I #CogView3

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM