Быстрый старт для тех, кто хочет попробовать себя в нейросетевом арте с помощью Stable Diffusion.
Stable Diffusion - это софт для генерации изображений по тексту с открытым исходным кодом. То есть вы сможете создавать картинки у себя на компьютере. Он требует чуть больше усилий для получения качественного изображения, чем тот же Midjourney, но зато он бесплатный, расширяемый и имеет API, то есть вы сможете подключить его к своим любимым пакетам (уже есть плагины для Фотошопа и Криты).
Для работы с ним вам понадобится видеокарта Nvidia с минимум 6 гигабайтами памяти (некоторые утверждают, что и на четырех работает).
Чтобы работать было удобнее, необходимо установить так называемый webui, то есть пользовательский интерфейс. Я рекомендую Automatic1111. Он, прямо скажем, не идеален, но у него самый богатый функционал и крутое коммьюнити.
Существует однокнопочный инсталлер всего, что нужно. Работает только в Windows:
https://github.com/EmpireMediaScience/A1111-Web-UI-Installer
Скачайте Latest Release, запустите и поставьте галки на установку Python, Git и скачивание модели, если у вас всего этого нет. Процесс установки достаточно долгий, так что наберитесь терпения. Рекомендую ставить на SSD-диск с достаточным объемом, так как модели у вас быстро съедят кучу места. У меня папка с автоматиком весит 130 гигабайт.
Если у вас не Windows, то придется пройти путь ручной установки всех запчастей, как указано в этом репозитории (это основной репо Автоматика):
https://github.com/AUTOMATIC1111/stable-diffusion-webui
Запуск самого webui происходит через файл .bat (.или sh на linux). Запускайте webui-user. В него вы сможете добавлять аргументы командной строки, про них будет отдельный пост.
После запуска bat-файла откроется терминал, в котором будет отображаться процесс запуска. Успешный пуск заканчивается надписью
#основы
Stable Diffusion - это софт для генерации изображений по тексту с открытым исходным кодом. То есть вы сможете создавать картинки у себя на компьютере. Он требует чуть больше усилий для получения качественного изображения, чем тот же Midjourney, но зато он бесплатный, расширяемый и имеет API, то есть вы сможете подключить его к своим любимым пакетам (уже есть плагины для Фотошопа и Криты).
Для работы с ним вам понадобится видеокарта Nvidia с минимум 6 гигабайтами памяти (некоторые утверждают, что и на четырех работает).
Чтобы работать было удобнее, необходимо установить так называемый webui, то есть пользовательский интерфейс. Я рекомендую Automatic1111. Он, прямо скажем, не идеален, но у него самый богатый функционал и крутое коммьюнити.
Существует однокнопочный инсталлер всего, что нужно. Работает только в Windows:
https://github.com/EmpireMediaScience/A1111-Web-UI-Installer
Скачайте Latest Release, запустите и поставьте галки на установку Python, Git и скачивание модели, если у вас всего этого нет. Процесс установки достаточно долгий, так что наберитесь терпения. Рекомендую ставить на SSD-диск с достаточным объемом, так как модели у вас быстро съедят кучу места. У меня папка с автоматиком весит 130 гигабайт.
Если у вас не Windows, то придется пройти путь ручной установки всех запчастей, как указано в этом репозитории (это основной репо Автоматика):
https://github.com/AUTOMATIC1111/stable-diffusion-webui
Запуск самого webui происходит через файл .bat (.или sh на linux). Запускайте webui-user. В него вы сможете добавлять аргументы командной строки, про них будет отдельный пост.
После запуска bat-файла откроется терминал, в котором будет отображаться процесс запуска. Успешный пуск заканчивается надписью
To create a public link, set share=True in launch()
Теперь открывайте браузер, запускайте ссылку http://127.0.0.1:7860 и начинайте творить.#основы
GitHub
GitHub - EmpireMediaScience/A1111-Web-UI-Installer: Complete installer for Automatic1111's infamous Stable Diffusion WebUI
Complete installer for Automatic1111's infamous Stable Diffusion WebUI - EmpireMediaScience/A1111-Web-UI-Installer
👍33❤3
Что такое модели, где их взять и куда поставить?
Model, Checkpoint - файл с расширением .ckpt или .safetensor. В модели хранятся все веса для генерации картинок, без неё ничего работать не будет. Обычно это большие файлы с размером 3-4 гигабайта, иногда больше.
Базовые стандартные "официальные" модели существуют в разных версиях. Я рекомендую скачать все и выбрать подходящую под свои задачи. Мне нравится 1.5. Но начиная со второй размер датасета увеличился до 768х768, а в 2.1 очень хорошо получаются портретные фотографии.
Помимо стандартных моделей существуют еще и специфические, которые работают в img2img:
Inpainting - это модель, которая позволяет переделывать определенные участки изображения, учитывая форму и размер маски.
С выходом ControlNet1.1 Следующие две модели устарели, но вы можете их встретить:
Depth - модель, которая генерирует картинку по карте глубины.
Pix2pix - модель для перерисовки картинки методом Instruct pix2pix.
Если вы скачиваете новую модель, и у вас есть выбор, то скачивайте safetensors. Она не отличается от ckpt по сути, но открывается быстрее и в ней нет исполняемого кода, который потенциально может быть вредоносным. Также есть разные версии - pruned, emaonly и другие. Скачивайте pruned-emaonly, которая занимает меньше места.
Модели надо положить в папку
Базовые модели (для скачивания нажмите на стрелочку вниз справа от имени файла):
Версия 1.5
https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main
Inpainting:
https://huggingface.co/runwayml/stable-diffusion-inpainting/tree/main
Версия 2
https://huggingface.co/stabilityai/stable-diffusion-2/tree/main
Inpainting:
https://huggingface.co/stabilityai/stable-diffusion-2-inpainting/tree/main
Depth
https://huggingface.co/stabilityai/stable-diffusion-2-depth
Версия 2.1
https://huggingface.co/stabilityai/stable-diffusion-2-1/tree/main
Pix2Pix (Внимание! Работает только в img2img!):
https://huggingface.co/timbrooks/instruct-pix2pix/tree/main
Важный момент, что для работы моделей 2 и 2.1 рядом с ними должен лежать файл настроек, который называется так же, как модель, но имеет расширение yaml. Я подготовил архив с yaml-файлами для официальных моделей, скачайте его вот тут: https://bit.ly/3XPYGAV и распакуйте в ту же папку.
Также существуют модели от сообщества. По сути это стандартные чекпойнты, доученные на новых датасетах. Их можно найти и скачать на сайте https://civitai.com/
Обратите внимание, что некоторые из них обучены на моделях 2 и 2.1 (это указано на странице чекпойнта), для них нужно будет скопировать соответствующий yaml и переименовать его, чтобы имя соответствовало модели.
Чекпойнт выбирается в интерфейсе Автоматика в выпадающем списке в левом верхнем углу. Загрузка модели занимает некоторое время, так что следите за консолью.
Удачного творчества!
#основы
Model, Checkpoint - файл с расширением .ckpt или .safetensor. В модели хранятся все веса для генерации картинок, без неё ничего работать не будет. Обычно это большие файлы с размером 3-4 гигабайта, иногда больше.
Базовые стандартные "официальные" модели существуют в разных версиях. Я рекомендую скачать все и выбрать подходящую под свои задачи. Мне нравится 1.5. Но начиная со второй размер датасета увеличился до 768х768, а в 2.1 очень хорошо получаются портретные фотографии.
Помимо стандартных моделей существуют еще и специфические, которые работают в img2img:
Inpainting - это модель, которая позволяет переделывать определенные участки изображения, учитывая форму и размер маски.
С выходом ControlNet1.1 Следующие две модели устарели, но вы можете их встретить:
Depth - модель, которая генерирует картинку по карте глубины.
Pix2pix - модель для перерисовки картинки методом Instruct pix2pix.
Если вы скачиваете новую модель, и у вас есть выбор, то скачивайте safetensors. Она не отличается от ckpt по сути, но открывается быстрее и в ней нет исполняемого кода, который потенциально может быть вредоносным. Также есть разные версии - pruned, emaonly и другие. Скачивайте pruned-emaonly, которая занимает меньше места.
Модели надо положить в папку
stable-diffusion-webui/models/Stable-diffusion/
Можно создавать подпапки, которые позволят удобно каталогизировать все имеющиеся чекпойнты.Базовые модели (для скачивания нажмите на стрелочку вниз справа от имени файла):
Версия 1.5
https://huggingface.co/runwayml/stable-diffusion-v1-5/tree/main
Inpainting:
https://huggingface.co/runwayml/stable-diffusion-inpainting/tree/main
Версия 2
https://huggingface.co/stabilityai/stable-diffusion-2/tree/main
Inpainting:
https://huggingface.co/stabilityai/stable-diffusion-2-inpainting/tree/main
Depth
https://huggingface.co/stabilityai/stable-diffusion-2-depth
Версия 2.1
https://huggingface.co/stabilityai/stable-diffusion-2-1/tree/main
Pix2Pix (Внимание! Работает только в img2img!):
https://huggingface.co/timbrooks/instruct-pix2pix/tree/main
Важный момент, что для работы моделей 2 и 2.1 рядом с ними должен лежать файл настроек, который называется так же, как модель, но имеет расширение yaml. Я подготовил архив с yaml-файлами для официальных моделей, скачайте его вот тут: https://bit.ly/3XPYGAV и распакуйте в ту же папку.
Также существуют модели от сообщества. По сути это стандартные чекпойнты, доученные на новых датасетах. Их можно найти и скачать на сайте https://civitai.com/
Обратите внимание, что некоторые из них обучены на моделях 2 и 2.1 (это указано на странице чекпойнта), для них нужно будет скопировать соответствующий yaml и переименовать его, чтобы имя соответствовало модели.
Чекпойнт выбирается в интерфейсе Автоматика в выпадающем списке в левом верхнем углу. Загрузка модели занимает некоторое время, так что следите за консолью.
Удачного творчества!
#основы
👍26❤5
Базовые параметры Stable Diffusion.
В основном вы будете работать в двух вкладках: txt2img и img2img. Из названий понятно, что в первой вы генерируете картинку из текста, а во второй из другой картинки (и текста тоже).
Давайте разберемся, какие параметры есть в этих вкладках.
Prompt и Negative prompt. Это два больших текстовых поля. В них вы вводите свой запрос, по которому будет генерироваться картинка. Запрос лучше вводить по-английски, но Stable diffusion знает и русский, и другие языки, можете проверить.
Про то, как составлять запросы, будет отдельный пост, пока пробежимся по основам.
1. В Stable diffusion существует ограничение в 75 токенов на запрос. Токен - это не всегда одно слово, иногда одно слово разбивается на несколько токенов. Также к ним относятся знаки препинания. Но в Automatic1111 это ограничение снято, промпт может быть любой длины, но при превышении лимита время генерации незначительно увеличивается.
2. Любое слово или группу слов можно усилить или ослабить, поставив его в круглые (усиление) или квадратные [ослабление] скобки. При этом число скобок влияет на силу веса.
3. Негативный промпт позволяет чинить определенные проблемы в картинке. В нем тоже можно повышать веса отдельных слов.
Sampling method. Если упрощать, то это алгоритм, по которому происходит поиск нужной картинки в пространстве всех возможных картинок (очень простое объяснение). При генерации картинки создаётся случайный шум и Stable Diffusion пытается убрать этот шум и получить нужное изображение. Это происходит итеративно, и каждый шаг приближает нас к правильной картинке. Вот как раз сэмплер и задаёт это "движение". Чтобы не парить вас теорией скажу так: Euler A самый быстрый. Ему достаточно 20-25 шагов, чтобы получить чистую картинку. Но при этом результат меняется в процессе сэмплинга и он лучше подходит для стилизованных изображений. Для фоторила хорошо идут DDIM, DPM++ 2M. На самом деле, разница между ними достаточно условная, как между Пепси и Кока-колой. Очень часто я вообще не парюсь с сэмплером и работаю в Euler A.
Sampling steps - те самые шаги в сторону красивой картинки. Для Euler A достаточно 20-25. Для других сэмплеров может понадобиться и большее значение, иногда до 50. Когда картинка "недоделана", на ней появляются артефакты. Поднимайте шаги, если заметили их.
Width, Height - размеры картинки. Это важный параметр. В отдельном посте я расскажу, как получать хайрезные изображения. Пока скажу так: лучше, чтобы начальный размер соответствовал датасету, на котором сеть тренировалась. Для модели 1.5 это 512х512, для моделей 2+ это 768х768. Необязательно делать квадратные картинки. Но не увеличивайте изображение значительно больше исходного, иначе начнут появляться артефакты в виде клонов, вторых голов и так далее. Как с этим бороться расскажу чуть позже. Важное ограничение! И ширина, и высота должны делиться на 8.
CFG Scale. Это степень соответствия картинки вашему промпту. Условно говоря это лерп между картинкой, сгенерированной пустым промптом (Scale 1) и только вашим промптом (Scale 30). Начинайте с 7. Можно доходить до 15. Выше уже не рекомендуется, картинка начинает портиться. Ниже семи опускать имеет смысл, если вы используете обученные Lora или Hypernet, иногда это позволяет избавиться от повторяющихся элементов стиля.
#основы
В основном вы будете работать в двух вкладках: txt2img и img2img. Из названий понятно, что в первой вы генерируете картинку из текста, а во второй из другой картинки (и текста тоже).
Давайте разберемся, какие параметры есть в этих вкладках.
Prompt и Negative prompt. Это два больших текстовых поля. В них вы вводите свой запрос, по которому будет генерироваться картинка. Запрос лучше вводить по-английски, но Stable diffusion знает и русский, и другие языки, можете проверить.
Про то, как составлять запросы, будет отдельный пост, пока пробежимся по основам.
1. В Stable diffusion существует ограничение в 75 токенов на запрос. Токен - это не всегда одно слово, иногда одно слово разбивается на несколько токенов. Также к ним относятся знаки препинания. Но в Automatic1111 это ограничение снято, промпт может быть любой длины, но при превышении лимита время генерации незначительно увеличивается.
2. Любое слово или группу слов можно усилить или ослабить, поставив его в круглые (усиление) или квадратные [ослабление] скобки. При этом число скобок влияет на силу веса.
(((cat))) in a [purple] hat
значит усиление веса слова cat и ослабление слова purple. Также в одиночных круглых скобках можно добавлять вес числом через двоеточие. Например (cat:1.3)
увеличит вес слова cat. Если сделать меньше одного, то уменьшит. Обычно вес лучше не увеличивать больше 1.4, иначе результат получается пережженным. Когда вы выделили слова или целую фразу, можно с Ctrl нажать на клавиатуре стрелки вверх и вниз, чтобы изменить вес.3. Негативный промпт позволяет чинить определенные проблемы в картинке. В нем тоже можно повышать веса отдельных слов.
Sampling method. Если упрощать, то это алгоритм, по которому происходит поиск нужной картинки в пространстве всех возможных картинок (очень простое объяснение). При генерации картинки создаётся случайный шум и Stable Diffusion пытается убрать этот шум и получить нужное изображение. Это происходит итеративно, и каждый шаг приближает нас к правильной картинке. Вот как раз сэмплер и задаёт это "движение". Чтобы не парить вас теорией скажу так: Euler A самый быстрый. Ему достаточно 20-25 шагов, чтобы получить чистую картинку. Но при этом результат меняется в процессе сэмплинга и он лучше подходит для стилизованных изображений. Для фоторила хорошо идут DDIM, DPM++ 2M. На самом деле, разница между ними достаточно условная, как между Пепси и Кока-колой. Очень часто я вообще не парюсь с сэмплером и работаю в Euler A.
Sampling steps - те самые шаги в сторону красивой картинки. Для Euler A достаточно 20-25. Для других сэмплеров может понадобиться и большее значение, иногда до 50. Когда картинка "недоделана", на ней появляются артефакты. Поднимайте шаги, если заметили их.
Width, Height - размеры картинки. Это важный параметр. В отдельном посте я расскажу, как получать хайрезные изображения. Пока скажу так: лучше, чтобы начальный размер соответствовал датасету, на котором сеть тренировалась. Для модели 1.5 это 512х512, для моделей 2+ это 768х768. Необязательно делать квадратные картинки. Но не увеличивайте изображение значительно больше исходного, иначе начнут появляться артефакты в виде клонов, вторых голов и так далее. Как с этим бороться расскажу чуть позже. Важное ограничение! И ширина, и высота должны делиться на 8.
CFG Scale. Это степень соответствия картинки вашему промпту. Условно говоря это лерп между картинкой, сгенерированной пустым промптом (Scale 1) и только вашим промптом (Scale 30). Начинайте с 7. Можно доходить до 15. Выше уже не рекомендуется, картинка начинает портиться. Ниже семи опускать имеет смысл, если вы используете обученные Lora или Hypernet, иногда это позволяет избавиться от повторяющихся элементов стиля.
#основы
👍25🔥5