Нейронавт | Нейросети в творчестве
9.4K subscribers
3.62K photos
3.14K videos
40 files
4.1K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models

Генерация фотореалистичных изображений с пиксельной точностью от Nvidia. Отсутствует CLIP, пиксельное пространство вместо латентного.

Фичи:
- картинки по тексту
- ControlNet-апсемплинг до 4K (генератор выдает 1K)
- поддерживает Controlnet, сети управления
- HDR панорамы 360°
- дообучение, в том числе на несколько объектов

Впечатляет, но

Кода нет

#text2image #panorama #HDR #conditioning #upscale
🔥6👍1
FLUX.1 Tools

BlackForest Labs выпустили пачку контролнетов для FLUX.1 под названием FLUX.1 Tools

Вернее, это полноценные модели по 24Гб со встроенным функционалом контролнета. Depth и Canny есть также в виде лоры

FLUX.1 Fill: современные модели #inpainting и #outpainting, позволяющие редактировать и расширять реальные и сгенерированные изображения с текстовым описанием и бинарной маской.

FLUX.1 Depth: Модели, обученные для обеспечения структурного руководства на основе карты глубины, извлеченной из входного изображения и текстовой подсказки.

FLUX.1 Canny: модели, обученные для обеспечения структурного руководства на основе тонких контуров, извлеченных из входного изображения и текстовой подсказки.

FLUX.1 Redux: адаптер, позволяющий смешивать и воссоздавать входные изображения и текстовые подсказки.

Доступно по API для [pro] и в опенсорсе для [dev]
А также на сайтах партнеров

fal.ai
Replicate
Together.ai
Freepik
krea.ai

Гитхаб
Веса на HF

ComfyUI

#controlnet #conditioning #image2image #text2image #news #flux
🔥20
In-Context LoRA (IC-LoRA)

Lora - дообучение генераторов картинок для создания наборов изображений в общем контексте. Иначе говоря, консистентность объектов и их взаимоотношений.

Примеров применения море

Уже на tost.ai

Дружит с ComfyUI
Воркфлоу для раскадровок

Код
Flux Simple Try On на Civitai

#personalization #conditioning #text2image
🔥13
OminiControl

Что-то вроде универсального контролнета-айпиадаптера, как я понял. Легковесная система управления для диффузионных трансформеров типа FLUX.

Поддерживает предметно-ориентированное управление и пространственное управление (например Canny, inpainting).

Пусть эта 50-мегабайтная штука заменит 100Гб флюкс тулзов, ну пожалуйста

Код
Демо

#text2image #conditioning
👍75
ControlNets for Stable Diffusion 3.5 Large

Какое совпадение - 2
Вслед за Blackforest Labs, Stability AI выпускают пачку контролнетов к SD 3.5 Large

Blur - апскейлер до 8К и 16К
Canny
Depth

Веса на HF
Гитхаб
Уже в ComfyUI

#conditioning #controlnet #sd35 #text2image #upscale #depth2image
7🔥6👍1
OneDiffusion

Единая модель для разных задач, связанных с генерацией и пониманием изображений

- генерация по тексту
- персонализация
- многоракурсная генерация - сразу несколько ракурсов объекта, заданного текстом или референсным изображением
- генерация по техническим картам (по принципу контролнет) и наоборот - генерация карт по картинке

Обучена на 512px и 1024px

Код ждем через 1-2 недели

#text2image #image2image #conditioning #personalization #multiview
11👍3🔥1
В Anychat продолжают прикручивать всякие ништяки. Из интересного помимо языковых моделей:

- генератор картинок Luma Photon
- генератор видео hunyuan video (вкладка Replicate)
- Flux tools (вкладка Replicate)
- генератор видео ltx video (вкладка fal)
- генератор речи Play.ai

Пользуемся: Anychat

#text2video #video2video #image2video #text2speech #controlnet #conditioning #image2image #text2image #flux
🔥52
OminiControl Training

Опубликован код обучения универсального управляемого генератора изображений OminiControl

Можете обучить свой собственный OminiControl на базе #flux с любым управлением - примерка, 3D, поза или что-либо еще что придумаете.

Только запаситесь двумя NVIDIA H100, 80GB VRAM. Непонятно почему двумя, ведь столько памяти у одной H100, но по ссылке написано именно так

#finetuning #training #conditioning #text2image
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
EditAR: Unified Conditional Generation with Autoregressive Models

Авторегрессионная модель для различных задач управляемой генерации картинок от NVIDIA

- редактирование изображений
- генерация картинки по карте глубины
- генерация по карте краев (canny/edges)
- генерация по сегментной маске

Код ждем

#imageediting #conditioning #controlnet
👍41🤮1
This media is not supported in your browser
VIEW IN TELEGRAM
JASCO: Joint Audio And Symbolic Conditioning for Temporally Controlled Text-To-Music Generation

Генератор музыки от запрещенной Meta AI на базе audiocraft - опубликован код и веса

На вход принимает текст / аккорды / мелодию / ноты / отдельные партии, например ударные

Есть API, генерирует 10-секундные куски

Обучен на 16000 часов лицензионной музыки

Код
Модель
Jupiter notebook

#music #text2music #conditioning #music2music
6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
DiffSplat: Repurposing Image Diffusion Models for Scalable 3D Gaussian Splat Generation

Генератор 3D объектов на гауссианах по картинке, по тексту. Поддерживает контроль генерации контролнетом - в примерах есть canny, depth, normals

Модель представляет собой файнтюн PixArt-Sigma-XL-2-512-MS

Код
Веса
Демо ждем

#textto3d #imageto3d #gaussian #conditioning #text2gaussian #image2gaussian
🔥6👍2
EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer

Убийца контролнета.
Стабильно работает в разных разрешениях.
Прикручено к Flux.
Интегрировано в CFG-Zero

Код
Демо
Демо гиблификация
ComfyUI

#conditioning #controlnet #flux #comfyui #image2image #referencing #personalization
👍12🔥4
ZenCtrl

Еще одна альтернатива #controlnet от Fotographer AI
Умеет генерить разные ракурсы сцены/объекта, фон под объект. Из привычного - Canny, Depth

Разрешение до 1024×1024, в будущем 2К и 4К

Есть пара моделек под #flux и одна под Ominicontrol (деблюр)

Код ждем
Демо
Веса
API
Статья

#conditioning #deblur #image2image #personalization #multiview #novelview
8👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Any2Caption: Interpreting Any Condition to Caption for Controllable Video Generation

Контроль генерации видео на основе любой входной информации (текст, нормали, глубина, эскиз, сегментация, ракурс и т д) за счет использования мультимодальных языковых моделей

Эпоха зоопарка контролнетов уходит?

В работе явно указан Hunyuan, наверняка, может работать и с другими генераторами

Код ждем

#text2video #conditioning #controlnet
👍102🤮1
FLUX.1-dev-ControlNet-Union-Pro-2.0

Поддерживает разные режимы включая canny, soft edge, depth, pose, gray

Обучен на 512x512

Демо

#controlnet #conditioning @text2image #image2image
🔥9
DICEPTION: A Generalist Diffusion Model for Vision Perception

Единая модель создает технические карты на уровне SOTA. Умеет делать глубину, нормали, позу? разные виды сегментации.

Сохраняет мелкие детали сегментации, такие как волосы.

Код ждем
Демо

Спасибо @m_franz

#conditioning #image2mask #image2normal #image2depth #image2pose #segmentation
👍10
This media is not supported in your browser
VIEW IN TELEGRAM
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

Это Flux Fill обученный на матрицах входных изображений.

Получает на вход матрицу картинок, например 2 ряда, 2 столбца и понимает какую задачу надо выполнить. Задач можно придумать много от переноса стиля до смены времени года и генерации технических карт.

Разрешение входных изображений в матрицах при обучении 384x384 пикселя

Много примеров на гитхабе и в демоспейсе

Очень интересно какое применение вы ему найдете?

Поломал голову пока понял что он делает и как это описать. Теперь не знаю какие теги придумать.
В коментах подсказывают что это близнец In-Context-LoRA

Код
Демо
HF

#referencing #image2image #conditioning #text2image
👍5
Опубликован код инструмента для работы с изображениями ZenCtrl

Разрешение до 1024×1024, уже работают над 1500х1500 и больше, работают над агентским и видеопайплайном

Лучше всего работает с объектами. С людьми - ограниченно. Плохо умеет в иллюстации. Ибо обучен на бедном датасете. В будущем улучшат.

Код

#conditioning #deblur #image2image #personalization #multiview #novelview #referencing
👍5