Qwen-Image-Lightning-4steps-V1.0
А вот и четырехшаговая лора Qwen-Image
Гитхаб
Воркфлоу
#workflow #text2image #optimization #lora
А вот и четырехшаговая лора Qwen-Image
Гитхаб
Воркфлоу
#workflow #text2image #optimization #lora
🔥6👍3😁1👨💻1
Nano Banana
Новый генератор/редактор картинок, предположительно от Google.
Почему предположительно - потому что нет никакого релиза. Модель есть на https://lmarena.ai/ в разделе Battle - Image. А в лидерборде отсутствует...
Даем задание, можно просто по тексту, можно с исходной картинкой. Выбираем лучший результат из двух и видим название моделей.
Делает инпейнтинг, замену, генерацию по нескольким референсам. В общем, все то же что Flux Kontext но якобы лучше. На арене приходится кидать несколько запросов чтобы выпал банан, но вроде и правда лучше
Спасибо @iNevestenko
#text2image #image2image #imageediting
Новый генератор/редактор картинок, предположительно от Google.
Почему предположительно - потому что нет никакого релиза. Модель есть на https://lmarena.ai/ в разделе Battle - Image. А в лидерборде отсутствует...
Даем задание, можно просто по тексту, можно с исходной картинкой. Выбираем лучший результат из двух и видим название моделей.
Делает инпейнтинг, замену, генерацию по нескольким референсам. В общем, все то же что Flux Kontext но якобы лучше. На арене приходится кидать несколько запросов чтобы выпал банан, но вроде и правда лучше
Спасибо @iNevestenko
#text2image #image2image #imageediting
👍6🔥3
Skywork-UniPic
И еще один генератор-редактор. Но этот еще и пониматор картинок. Модель в количестве две штуки
UniPic-1 - авторегрессионная модель с нуля
UniPic-2 - основана эффективных архитектурах с диффузионным постобучением. Включает варианты SD3.5M-Kontext и MetaQuery
Умеет:
- генерация изображений по тексту
- редактирование изображений (бесшовная дорисовка, удаление объектов, манипуляция объектами);
- понимание изображений (устойчивые возможности восприятия для решения различных визуальных задач)
Явно уступает nano-banana по редактированию, но там опенсорсом не пахнет пока
Гитхаб
Демо UniPic-1
Демо UniPic-2
#vlm #imageediting #text2image #image2image
И еще один генератор-редактор. Но этот еще и пониматор картинок. Модель в количестве две штуки
UniPic-1 - авторегрессионная модель с нуля
UniPic-2 - основана эффективных архитектурах с диффузионным постобучением. Включает варианты SD3.5M-Kontext и MetaQuery
Умеет:
- генерация изображений по тексту
- редактирование изображений (бесшовная дорисовка, удаление объектов, манипуляция объектами);
- понимание изображений (устойчивые возможности восприятия для решения различных визуальных задач)
Явно уступает nano-banana по редактированию, но там опенсорсом не пахнет пока
Гитхаб
Демо UniPic-1
Демо UniPic-2
#vlm #imageediting #text2image #image2image
👍3👎3
NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale
Новая модель от Степана (Stepfun). Генератор-редактор картинок на авторегрессии (картинка создается последовательно, пиксель за пикселем, а не итеративно как в диффузии)
#sota авторегресии на генерации изображений. 14B параметров, 60Гб весов. Результаты трудно разглядеть. Предположительно, качество на уровне SD1.5. Астрологи объявили эру неподъемных моделей с незаметным качеством, но послушных (но это неточно)
Офсайт не прогружается
Гитхаб
HF
#text2image #imageediting
Новая модель от Степана (Stepfun). Генератор-редактор картинок на авторегрессии (картинка создается последовательно, пиксель за пикселем, а не итеративно как в диффузии)
#sota авторегресии на генерации изображений. 14B параметров, 60Гб весов. Результаты трудно разглядеть. Предположительно, качество на уровне SD1.5. Астрологи объявили эру неподъемных моделей с незаметным качеством, но послушных (но это неточно)
Офсайт не прогружается
Гитхаб
HF
#text2image #imageediting
❤5👀3👎2🤔1😱1
Заработал демоспейс редактора картинок от Stepfun NextStep-1-Large-Edit
Но похоже что даже на всего один прогон нужно больше кредитов чем выдают на бесплатном тарифе
Демо
#text2image #imageediting
Но похоже что даже на всего один прогон нужно больше кредитов чем выдают на бесплатном тарифе
Демо
#text2image #imageediting
😭2👍1
Обучение Chroma (чекпойнт на базе Flux Schnell) завершено, семейство моделей доступно для использования.
Модели можно дообучать под конкретные задачи.
Chroma1-Base (базовая модель 512x512)
Chroma1-HD (модель с высоким разрешением 1024x1024)
Chroma1-Flash (экспериментальная версия для ускорения работы моделей)
Chroma1-Radiance [WIP] (модель, работающая напрямую с пикселями, а не с латентным пространством, что должно устранить некоторые артефакты).
Базовые модели универсальны и дают больше возможностей для дальнейшей настройки, в отличие от моделей, заточенных под определённый стиль.
На примерах черрипики с flash и HD
Реддит
Fictional.ai - говорят, в мобильной аппке есть Chroma. Дают ли попробовать бесплатно не заню
#text2image #mobile #ios #android
Модели можно дообучать под конкретные задачи.
Chroma1-Base (базовая модель 512x512)
Chroma1-HD (модель с высоким разрешением 1024x1024)
Chroma1-Flash (экспериментальная версия для ускорения работы моделей)
Chroma1-Radiance [WIP] (модель, работающая напрямую с пикселями, а не с латентным пространством, что должно устранить некоторые артефакты).
Базовые модели универсальны и дают больше возможностей для дальнейшей настройки, в отличие от моделей, заточенных под определённый стиль.
На примерах черрипики с flash и HD
Реддит
Fictional.ai - говорят, в мобильной аппке есть Chroma. Дают ли попробовать бесплатно не заню
#text2image #mobile #ios #android
👍11
Waver 1.0
Единая модель от ByteDance для генерации видео и изображений
3 место на T2V leaderboard & I2V leaderboard
— поддерживает создание видео по тексту и изображениям;
— генерирует видео длиной 5 и 10 секунд;
— работает с разрешением 720p и 1080p;
— создаёт видео с реалистичными движениями, особенно в масштабных сценах с людьми и животными;
— позволяет создавать нарративные видео с несколькими последовательными кадрами, сохраняя при этом согласованность сюжета, визуального стиля и атмосферы;
— поддерживает генерацию видео в различных художественных стилях, включая гиперреализм, анимацию, плюшевые игрушки и другие;
— способна отображать сложные и масштабные движения, например, в спортивных сценах;
— может создавать видео с многокамерным повествованием, обеспечивая согласованность основного объекта, визуального стиля и общей атмосферы при переключении кадров.
Гитхаб без кода
Дискорд - попробовать предлагают здесь
#text2image #image2video #text2video
Единая модель от ByteDance для генерации видео и изображений
3 место на T2V leaderboard & I2V leaderboard
— поддерживает создание видео по тексту и изображениям;
— генерирует видео длиной 5 и 10 секунд;
— работает с разрешением 720p и 1080p;
— создаёт видео с реалистичными движениями, особенно в масштабных сценах с людьми и животными;
— позволяет создавать нарративные видео с несколькими последовательными кадрами, сохраняя при этом согласованность сюжета, визуального стиля и атмосферы;
— поддерживает генерацию видео в различных художественных стилях, включая гиперреализм, анимацию, плюшевые игрушки и другие;
— способна отображать сложные и масштабные движения, например, в спортивных сценах;
— может создавать видео с многокамерным повествованием, обеспечивая согласованность основного объекта, визуального стиля и общей атмосферы при переключении кадров.
Гитхаб без кода
Дискорд - попробовать предлагают здесь
#text2image #image2video #text2video
👍9🤷♂1❤1
Обновки в #ComfyUI
Nano-banana via ComfyUI API Nodes!
Поддержка нанобанана через API nodes
———————————
Day-1 Support of Qwen-Image InstantX ControlNet
Речь о поддержке Qwen-Image-ControlNet-Union вышедшем на прошлой неделе
воркфлоу
Обновляем комфи и пользуемся
#imageediting #text2image #controlnet #workflow
Nano-banana via ComfyUI API Nodes!
Поддержка нанобанана через API nodes
———————————
Day-1 Support of Qwen-Image InstantX ControlNet
Речь о поддержке Qwen-Image-ControlNet-Union вышедшем на прошлой неделе
воркфлоу
Обновляем комфи и пользуемся
#imageediting #text2image #controlnet #workflow
❤4👍4
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
Модель от ByteDance, наследник UNO.
Позволяет свободно комбинировать любые предметы с любыми стилями в различных сценариях
Есть режим Low VRAM, пиковое потребление 16GB (один референс) и ~18GB (мультиреференс)
Сама модель представляет собой лору для Flux.dev, так что и на 8Gb можно будет завести
Код
Демо
HF
#personalization #referencing #text2image #image2image
Модель от ByteDance, наследник UNO.
Позволяет свободно комбинировать любые предметы с любыми стилями в различных сценариях
Есть режим Low VRAM, пиковое потребление 16GB (один референс) и ~18GB (мультиреференс)
Сама модель представляет собой лору для Flux.dev, так что и на 8Gb можно будет завести
Код
Демо
HF
#personalization #referencing #text2image #image2image
1👍11❤1🔥1
Chroma-Rapid-AIO
Быстрый мердж Chroma HD + Chroma Base + Accelerators + Flan T5 XXL + FluxVAE, все в одном
Про Chroma писал здесь
#text2image #optimization
Быстрый мердж Chroma HD + Chroma Base + Accelerators + Flan T5 XXL + FluxVAE, все в одном
Про Chroma писал здесь
#text2image #optimization
❤4👍1
Руководство по промптингу Nano-Banana от Google AI Studio
С фокусом на создании изображений по тексту.
Основной принцип: описывать сцену обычным человеческим языком, а не перечислять ключевые слова.
#prompting #tutorial #manual #text2image
С фокусом на создании изображений по тексту.
Основной принцип: описывать сцену обычным человеческим языком, а не перечислять ключевые слова.
#prompting #tutorial #manual #text2image
🔥11
Stable Diffusion WebUI Forge - Neo
счастье привалило комфи-хейтерам !
Это Forge (среда для работы с генераторами картинок и видео) с добавленными функциями:
- Wan 2.2 (txt2img, img2img, txt2vid, img2vid)
- Nunchaku (flux-dev, flux-krea, flux-kontext, T5)
- Flux-Kontext (img2img, inpaint)
- и другими (модели, ускоряторы, фичи)
Оригинальный Forge остается без изменений с прошлого года.
#gui #tools #text2image #text2video #optimization
счастье привалило комфи-хейтерам !
Это Forge (среда для работы с генераторами картинок и видео) с добавленными функциями:
- Wan 2.2 (txt2img, img2img, txt2vid, img2vid)
- Nunchaku (flux-dev, flux-krea, flux-kontext, T5)
- Flux-Kontext (img2img, inpaint)
- и другими (модели, ускоряторы, фичи)
Оригинальный Forge остается без изменений с прошлого года.
#gui #tools #text2image #text2video #optimization
🔥13👍5