Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models
Генерация фотореалистичных изображений с пиксельной точностью от Nvidia. Отсутствует CLIP, пиксельное пространство вместо латентного.
Фичи:
- картинки по тексту
- ControlNet-апсемплинг до 4K (генератор выдает 1K)
- поддерживает Controlnet, сети управления
- HDR панорамы 360°
- дообучение, в том числе на несколько объектов
Впечатляет, но
Кода нет
#text2image #panorama #HDR #conditioning #upscale
Генерация фотореалистичных изображений с пиксельной точностью от Nvidia. Отсутствует CLIP, пиксельное пространство вместо латентного.
Фичи:
- картинки по тексту
- ControlNet-апсемплинг до 4K (генератор выдает 1K)
- поддерживает Controlnet, сети управления
- HDR панорамы 360°
- дообучение, в том числе на несколько объектов
Впечатляет, но
Кода нет
#text2image #panorama #HDR #conditioning #upscale
🔥6👍1
FLUX.1 Tools
BlackForest Labs выпустили пачку контролнетов для FLUX.1 под названием FLUX.1 Tools
Вернее, это полноценные модели по 24Гб со встроенным функционалом контролнета. Depth и Canny есть также в виде лоры
FLUX.1 Fill: современные модели #inpainting и #outpainting, позволяющие редактировать и расширять реальные и сгенерированные изображения с текстовым описанием и бинарной маской.
FLUX.1 Depth: Модели, обученные для обеспечения структурного руководства на основе карты глубины, извлеченной из входного изображения и текстовой подсказки.
FLUX.1 Canny: модели, обученные для обеспечения структурного руководства на основе тонких контуров, извлеченных из входного изображения и текстовой подсказки.
FLUX.1 Redux: адаптер, позволяющий смешивать и воссоздавать входные изображения и текстовые подсказки.
Доступно по API для [pro] и в опенсорсе для [dev]
А также на сайтах партнеров
fal.ai
Replicate
Together.ai
Freepik
krea.ai
Гитхаб
Веса на HF
ComfyUI
#controlnet #conditioning #image2image #text2image #news #flux
BlackForest Labs выпустили пачку контролнетов для FLUX.1 под названием FLUX.1 Tools
Вернее, это полноценные модели по 24Гб со встроенным функционалом контролнета. Depth и Canny есть также в виде лоры
FLUX.1 Fill: современные модели #inpainting и #outpainting, позволяющие редактировать и расширять реальные и сгенерированные изображения с текстовым описанием и бинарной маской.
FLUX.1 Depth: Модели, обученные для обеспечения структурного руководства на основе карты глубины, извлеченной из входного изображения и текстовой подсказки.
FLUX.1 Canny: модели, обученные для обеспечения структурного руководства на основе тонких контуров, извлеченных из входного изображения и текстовой подсказки.
FLUX.1 Redux: адаптер, позволяющий смешивать и воссоздавать входные изображения и текстовые подсказки.
Доступно по API для [pro] и в опенсорсе для [dev]
А также на сайтах партнеров
fal.ai
Replicate
Together.ai
Freepik
krea.ai
Гитхаб
Веса на HF
ComfyUI
#controlnet #conditioning #image2image #text2image #news #flux
🔥20
In-Context LoRA (IC-LoRA)
Lora - дообучение генераторов картинок для создания наборов изображений в общем контексте. Иначе говоря, консистентность объектов и их взаимоотношений.
Примеров применения море
Уже на tost.ai
Дружит с ComfyUI
Воркфлоу для раскадровок
Код
Flux Simple Try On на Civitai
#personalization #conditioning #text2image
Lora - дообучение генераторов картинок для создания наборов изображений в общем контексте. Иначе говоря, консистентность объектов и их взаимоотношений.
Примеров применения море
Уже на tost.ai
Дружит с ComfyUI
Воркфлоу для раскадровок
Код
Flux Simple Try On на Civitai
#personalization #conditioning #text2image
🔥13
OminiControl
Что-то вроде универсального контролнета-айпиадаптера, как я понял. Легковесная система управления для диффузионных трансформеров типа FLUX.
Поддерживает предметно-ориентированное управление и пространственное управление (например Canny, inpainting).
Пусть эта 50-мегабайтная штука заменит 100Гб флюкс тулзов, ну пожалуйста
Код
Демо
#text2image #conditioning
Что-то вроде универсального контролнета-айпиадаптера, как я понял. Легковесная система управления для диффузионных трансформеров типа FLUX.
Поддерживает предметно-ориентированное управление и пространственное управление (например Canny, inpainting).
Пусть эта 50-мегабайтная штука заменит 100Гб флюкс тулзов, ну пожалуйста
Код
Демо
#text2image #conditioning
👍7❤5
ControlNets for Stable Diffusion 3.5 Large
Какое совпадение - 2
Вслед за Blackforest Labs, Stability AI выпускают пачку контролнетов к SD 3.5 Large
Blur - апскейлер до 8К и 16К
Canny
Depth
Веса на HF
Гитхаб
Уже в ComfyUI
#conditioning #controlnet #sd35 #text2image #upscale #depth2image
Какое совпадение - 2
Вслед за Blackforest Labs, Stability AI выпускают пачку контролнетов к SD 3.5 Large
Blur - апскейлер до 8К и 16К
Canny
Depth
Веса на HF
Гитхаб
Уже в ComfyUI
#conditioning #controlnet #sd35 #text2image #upscale #depth2image
❤7🔥6👍1
OneDiffusion
Единая модель для разных задач, связанных с генерацией и пониманием изображений
- генерация по тексту
- персонализация
- многоракурсная генерация - сразу несколько ракурсов объекта, заданного текстом или референсным изображением
- генерация по техническим картам (по принципу контролнет) и наоборот - генерация карт по картинке
Обучена на 512px и 1024px
Код ждем через 1-2 недели
#text2image #image2image #conditioning #personalization #multiview
Единая модель для разных задач, связанных с генерацией и пониманием изображений
- генерация по тексту
- персонализация
- многоракурсная генерация - сразу несколько ракурсов объекта, заданного текстом или референсным изображением
- генерация по техническим картам (по принципу контролнет) и наоборот - генерация карт по картинке
Обучена на 512px и 1024px
Код ждем через 1-2 недели
#text2image #image2image #conditioning #personalization #multiview
❤11👍3🔥1
В Anychat продолжают прикручивать всякие ништяки. Из интересного помимо языковых моделей:
- генератор картинок Luma Photon
- генератор видео hunyuan video (вкладка Replicate)
- Flux tools (вкладка Replicate)
- генератор видео ltx video (вкладка fal)
- генератор речи Play.ai
Пользуемся: Anychat
#text2video #video2video #image2video #text2speech #controlnet #conditioning #image2image #text2image #flux
- генератор картинок Luma Photon
- генератор видео hunyuan video (вкладка Replicate)
- Flux tools (вкладка Replicate)
- генератор видео ltx video (вкладка fal)
- генератор речи Play.ai
Пользуемся: Anychat
#text2video #video2video #image2video #text2speech #controlnet #conditioning #image2image #text2image #flux
🔥5❤2
Есть код и демо OneDiffusion - генератора/пониматора картинок
Код
Демо сейчас 404 - ждем
Веса на HF
#text2image #image2image #conditioning #personalization #multiview
Код
Демо сейчас 404 - ждем
Веса на HF
#text2image #image2image #conditioning #personalization #multiview
Telegram
Нейронавт | Нейросети в творчестве
OneDiffusion
Единая модель для разных задач, связанных с генерацией и пониманием изображений
- генерация по тексту
- персонализация
- многоракурсная генерация - сразу несколько ракурсов объекта, заданного текстом или референсным изображением
- генерация…
Единая модель для разных задач, связанных с генерацией и пониманием изображений
- генерация по тексту
- персонализация
- многоракурсная генерация - сразу несколько ракурсов объекта, заданного текстом или референсным изображением
- генерация…
👍4🔥2
OminiControl Training
Опубликован код обучения универсального управляемого генератора изображений OminiControl
Можете обучить свой собственный OminiControl на базе #flux с любым управлением - примерка, 3D, поза или что-либо еще что придумаете.
Только запаситесь двумя NVIDIA H100, 80GB VRAM. Непонятно почему двумя, ведь столько памяти у одной H100, но по ссылке написано именно так
#finetuning #training #conditioning #text2image
Опубликован код обучения универсального управляемого генератора изображений OminiControl
Можете обучить свой собственный OminiControl на базе #flux с любым управлением - примерка, 3D, поза или что-либо еще что придумаете.
Только запаситесь двумя NVIDIA H100, 80GB VRAM. Непонятно почему двумя, ведь столько памяти у одной H100, но по ссылке написано именно так
#finetuning #training #conditioning #text2image
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
EditAR: Unified Conditional Generation with Autoregressive Models
Авторегрессионная модель для различных задач управляемой генерации картинок от NVIDIA
- редактирование изображений
- генерация картинки по карте глубины
- генерация по карте краев (canny/edges)
- генерация по сегментной маске
Код ждем
#imageediting #conditioning #controlnet
Авторегрессионная модель для различных задач управляемой генерации картинок от NVIDIA
- редактирование изображений
- генерация картинки по карте глубины
- генерация по карте краев (canny/edges)
- генерация по сегментной маске
Код ждем
#imageediting #conditioning #controlnet
👍4❤1🤮1
This media is not supported in your browser
VIEW IN TELEGRAM
JASCO: Joint Audio And Symbolic Conditioning for Temporally Controlled Text-To-Music Generation
Генератор музыки от запрещенной Meta AI на базе audiocraft - опубликован код и веса
На вход принимает текст / аккорды / мелодию / ноты / отдельные партии, например ударные
Есть API, генерирует 10-секундные куски
Обучен на 16000 часов лицензионной музыки
Код
Модель
Jupiter notebook
#music #text2music #conditioning #music2music
Генератор музыки от запрещенной Meta AI на базе audiocraft - опубликован код и веса
На вход принимает текст / аккорды / мелодию / ноты / отдельные партии, например ударные
Есть API, генерирует 10-секундные куски
Обучен на 16000 часов лицензионной музыки
Код
Модель
Jupiter notebook
#music #text2music #conditioning #music2music
❤6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
DiffSplat: Repurposing Image Diffusion Models for Scalable 3D Gaussian Splat Generation
Генератор 3D объектов на гауссианах по картинке, по тексту. Поддерживает контроль генерации контролнетом - в примерах есть canny, depth, normals
Модель представляет собой файнтюн PixArt-Sigma-XL-2-512-MS
Код
Веса
Демо ждем
#textto3d #imageto3d #gaussian #conditioning #text2gaussian #image2gaussian
Генератор 3D объектов на гауссианах по картинке, по тексту. Поддерживает контроль генерации контролнетом - в примерах есть canny, depth, normals
Модель представляет собой файнтюн PixArt-Sigma-XL-2-512-MS
Код
Веса
Демо ждем
#textto3d #imageto3d #gaussian #conditioning #text2gaussian #image2gaussian
🔥6👍2
EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer
Убийца контролнета.
Стабильно работает в разных разрешениях.
Прикручено к Flux.
Интегрировано в CFG-Zero
Код
Демо
Демо гиблификация
ComfyUI
#conditioning #controlnet #flux #comfyui #image2image #referencing #personalization
Убийца контролнета.
Стабильно работает в разных разрешениях.
Прикручено к Flux.
Интегрировано в CFG-Zero
Код
Демо
Демо гиблификация
ComfyUI
#conditioning #controlnet #flux #comfyui #image2image #referencing #personalization
👍12🔥4
ZenCtrl
Еще одна альтернатива #controlnet от Fotographer AI
Умеет генерить разные ракурсы сцены/объекта, фон под объект. Из привычного - Canny, Depth
Разрешение до 1024×1024, в будущем 2К и 4К
Есть пара моделек под #flux и одна под Ominicontrol (деблюр)
Код ждем
Демо
Веса
API
Статья
#conditioning #deblur #image2image #personalization #multiview #novelview
Еще одна альтернатива #controlnet от Fotographer AI
Умеет генерить разные ракурсы сцены/объекта, фон под объект. Из привычного - Canny, Depth
Разрешение до 1024×1024, в будущем 2К и 4К
Есть пара моделек под #flux и одна под Ominicontrol (деблюр)
Код ждем
Демо
Веса
API
Статья
#conditioning #deblur #image2image #personalization #multiview #novelview
❤8👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Any2Caption: Interpreting Any Condition to Caption for Controllable Video Generation
Контроль генерации видео на основе любой входной информации (текст, нормали, глубина, эскиз, сегментация, ракурс и т д) за счет использования мультимодальных языковых моделей
Эпоха зоопарка контролнетов уходит?
В работе явно указан Hunyuan, наверняка, может работать и с другими генераторами
Код ждем
#text2video #conditioning #controlnet
Контроль генерации видео на основе любой входной информации (текст, нормали, глубина, эскиз, сегментация, ракурс и т д) за счет использования мультимодальных языковых моделей
Эпоха зоопарка контролнетов уходит?
В работе явно указан Hunyuan, наверняка, может работать и с другими генераторами
Код ждем
#text2video #conditioning #controlnet
👍10❤2🤮1
FLUX.1-dev-ControlNet-Union-Pro-2.0
Поддерживает разные режимы включая canny, soft edge, depth, pose, gray
Обучен на 512x512
Демо
#controlnet #conditioning @text2image #image2image
Поддерживает разные режимы включая canny, soft edge, depth, pose, gray
Обучен на 512x512
Демо
#controlnet #conditioning @text2image #image2image
🔥9
DICEPTION: A Generalist Diffusion Model for Vision Perception
Единая модель создает технические карты на уровне SOTA. Умеет делать глубину, нормали, позу? разные виды сегментации.
Сохраняет мелкие детали сегментации, такие как волосы.
Код ждем
Демо
Спасибо @m_franz
#conditioning #image2mask #image2normal #image2depth #image2pose #segmentation
Единая модель создает технические карты на уровне SOTA. Умеет делать глубину, нормали, позу? разные виды сегментации.
Сохраняет мелкие детали сегментации, такие как волосы.
Код ждем
Демо
Спасибо @m_franz
#conditioning #image2mask #image2normal #image2depth #image2pose #segmentation
👍10
FLUX.1-dev-ControlNet-Union-Pro-2.0-fp8
Квантизованная версия универсального контролнета для #flux
civitai/workflow
#controlnet #conditioning @text2image #image2image #workflow
Квантизованная версия универсального контролнета для #flux
civitai/workflow
#controlnet #conditioning @text2image #image2image #workflow
👍10🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning
Это Flux Fill обученный на матрицах входных изображений.
Получает на вход матрицу картинок, например 2 ряда, 2 столбца и понимает какую задачу надо выполнить. Задач можно придумать много от переноса стиля до смены времени года и генерации технических карт.
Разрешение входных изображений в матрицах при обучении 384x384 пикселя
Много примеров на гитхабе и в демоспейсе
Очень интересно какое применение вы ему найдете?
Поломал голову пока понял что он делает и как это описать. Теперь не знаю какие теги придумать.
В коментах подсказывают что это близнец In-Context-LoRA
Код
Демо
HF
#referencing #image2image #conditioning #text2image
Это Flux Fill обученный на матрицах входных изображений.
Получает на вход матрицу картинок, например 2 ряда, 2 столбца и понимает какую задачу надо выполнить. Задач можно придумать много от переноса стиля до смены времени года и генерации технических карт.
Разрешение входных изображений в матрицах при обучении 384x384 пикселя
Много примеров на гитхабе и в демоспейсе
Очень интересно какое применение вы ему найдете?
Поломал голову пока понял что он делает и как это описать. Теперь не знаю какие теги придумать.
В коментах подсказывают что это близнец In-Context-LoRA
Код
Демо
HF
#referencing #image2image #conditioning #text2image
👍5
Опубликован код инструмента для работы с изображениями ZenCtrl
Разрешение до 1024×1024, уже работают над 1500х1500 и больше, работают над агентским и видеопайплайном
Лучше всего работает с объектами. С людьми - ограниченно. Плохо умеет в иллюстации. Ибо обучен на бедном датасете. В будущем улучшат.
Код
#conditioning #deblur #image2image #personalization #multiview #novelview #referencing
Разрешение до 1024×1024, уже работают над 1500х1500 и больше, работают над агентским и видеопайплайном
Лучше всего работает с объектами. С людьми - ограниченно. Плохо умеет в иллюстации. Ибо обучен на бедном датасете. В будущем улучшат.
Код
#conditioning #deblur #image2image #personalization #multiview #novelview #referencing
👍5