225K subscribers
3.89K photos
663 videos
17 files
4.5K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
🌟 CogView-3Plus-3B: модель генерации Text-to-Image.

CogView-3-Plus - генеративная модель на архитектуре DiT из недавно представленного на ECCV'24 семейства CogView3.

CogView-3-Plus использует диффузионный шедулер Zero-SNR и VAE с latent dimension 16. По сравнению с MMDiT, она эффективней в обучении и инференсе при сохранении основных возможностей модели.

Технические параметры:

🟢Архитектура: DiT;

🟢Количество параметров: 3 млрд.;

🟢Разрешение: от 512 до 2048, кратное 32;

🟢Разрядности: FP32, BF16 (рекомендуется);

🟢VRAM: 20Gb (1024x1024), 30Gb (2048x2048);

🟢СPU Offload: есть, при его использовании, VRAM для всех поддерживаемых разрешений - 11Gb;

🟢Язык промпта: English;

🟢Max. длина промпта: 244 токена.

Инференс модели возможен в СLI (diffusers, SAT) и в WebUI на Gradio.

⚠️ В файле запуска Gradio используется функция улучшения промпта через ChatGPT (строки 37-112), для ее использования понадобится OpenAI API KEY.

⚠️ Модели серии CogView3 обучаются на длинных аннотациях изображений, поэтому рекомендуется использовать LLM-образные промпты для генерации, это значительно улучшит качество инференса.


📌Лицензирование : Apache 2.0 License.


🟡Модель
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #T2I #CogView3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍7🔥3👏1