CogView-3-Plus - генеративная модель на архитектуре DiT из недавно представленного на ECCV'24 семейства CogView3.
CogView-3-Plus использует диффузионный шедулер Zero-SNR и VAE с latent dimension 16. По сравнению с MMDiT, она эффективней в обучении и инференсе при сохранении основных возможностей модели.
Технические параметры:
Инференс модели возможен в СLI (diffusers, SAT) и в WebUI на Gradio.
⚠️ В файле запуска Gradio используется функция улучшения промпта через ChatGPT (строки 37-112), для ее использования понадобится OpenAI API KEY.
⚠️ Модели серии CogView3 обучаются на длинных аннотациях изображений, поэтому рекомендуется использовать LLM-образные промпты для генерации, это значительно улучшит качество инференса.
@ai_machinelearning_big_data
#AI #ML #T2I #CogView3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍7🔥3👏1