SDXL вышла ровно неделю назад, все это время я думал что бы хорошее про нее написать. Но сегодня я увидел то, что без преувеличения меня потрясло.
Начинают постепенно выходить модели и лоры дообученные на ее основе. Например, лора Pixel Art XL делает картинки, которые правда почти неотличимы от настоящего пиксель арта.
Объясняю, в чем прорыв. Пиксель арт отличает прежде всего одинаковый размер пикселя, даже если картинка увеличена. У всех предыдущих подобный моделей были с этим большие проблемы все пиксели сильно плясали по размерам. Могли быть тонкие и длинные "пиксели", например. Даже эта лора таким иногда может грешить, и чтобы отловить подобное я пропустил большинство картинок из поста через фотошоп, сначала уменьшив в 8 раз, потом обратно увеличив. Визуально они при этом почти не поменялись. Но 2 картинки я достал прямо из нейронки, ничего с ними не делал. Сможете ли вы их отличить?
Второй фактор, почему это прорыв. Эта небольшая модель показывает настоящий потенциал SDXL в том, насколько хорошо она поддается дрессировке в виде дообучения на нужном материале. И это тут главное.
К сожалению, SDXL пока лучше всего работает не с интерфейсом Automatic1111, а ComfyUI. Конечно, он может показаться немного непривычным, но кто в Блендере работал, того нодами не напугать. Постепенно начинаешь ощущать, чем он comfy. Например, можно просто перетащить в него картинку и сразу воспроизведется весь workflow, с помощью которого она была создана.
Начинают постепенно выходить модели и лоры дообученные на ее основе. Например, лора Pixel Art XL делает картинки, которые правда почти неотличимы от настоящего пиксель арта.
Объясняю, в чем прорыв. Пиксель арт отличает прежде всего одинаковый размер пикселя, даже если картинка увеличена. У всех предыдущих подобный моделей были с этим большие проблемы все пиксели сильно плясали по размерам. Могли быть тонкие и длинные "пиксели", например. Даже эта лора таким иногда может грешить, и чтобы отловить подобное я пропустил большинство картинок из поста через фотошоп, сначала уменьшив в 8 раз, потом обратно увеличив. Визуально они при этом почти не поменялись. Но 2 картинки я достал прямо из нейронки, ничего с ними не делал. Сможете ли вы их отличить?
Второй фактор, почему это прорыв. Эта небольшая модель показывает настоящий потенциал SDXL в том, насколько хорошо она поддается дрессировке в виде дообучения на нужном материале. И это тут главное.
К сожалению, SDXL пока лучше всего работает не с интерфейсом Automatic1111, а ComfyUI. Конечно, он может показаться немного непривычным, но кто в Блендере работал, того нодами не напугать. Постепенно начинаешь ощущать, чем он comfy. Например, можно просто перетащить в него картинку и сразу воспроизведется весь workflow, с помощью которого она была создана.
👍5❤3
OpenAi начали показывать DALL-E 3.
Большим прорывом выглядит улучшенное понимание промпта. Что от Midjourney, что от Stable Diffusion порой тяжело добиться в точности того, что надо, за счет одного лишь промптинга. Надеюсь, OpenAi действительно удастся задать новый стандарт по части послушности нейронок.
Также похоже что сильно лучше стала генрация читаемого текста.
Отдельная фишка - тесная интеграция с ChatGPT, который сможет для вас генерить картинки на основе запросов в виде обычной человеческой речи, а не промпта. Люди начинают уже шутить о скоропостижной кончине молодой профессии промпт-инженера.
Большим прорывом выглядит улучшенное понимание промпта. Что от Midjourney, что от Stable Diffusion порой тяжело добиться в точности того, что надо, за счет одного лишь промптинга. Надеюсь, OpenAi действительно удастся задать новый стандарт по части послушности нейронок.
Также похоже что сильно лучше стала генрация читаемого текста.
Отдельная фишка - тесная интеграция с ChatGPT, который сможет для вас генерить картинки на основе запросов в виде обычной человеческой речи, а не промпта. Люди начинают уже шутить о скоропостижной кончине молодой профессии промпт-инженера.
👏3❤2👍2
Nvidia выпустила новую нейронку.
Кроме того, спустя почти 3 года после своего выхода наконец-то вышел Cyberpunk 2077.
Эти две новости связаны тем, что новая нейросеть Nvidia пока существует в виде опции в настройках графики Киберпанка версии 2.0.
DLSS Ray Regeneration представляет собой нейро-денойзер, который позволяет из сцен с очень примерными RT лучами быстро получать красивую картинку. Напоминает Cycles + Denoise в Блендере.
Выход большого дополнения Phantom Liberty будет только через несколько дней, а пока можно покрутить настроечки, добавленные в новом патче.
Предыдущей бомбой от Nvidia была генерация промежуточных кадров в DLSS 3, которая "бесплатно" давала целую кучу FPS (при условии покупки дорогущей 40XX видюхи). Загвоздка была в том, что эта технология не уменьшает Input Lag, а даже немного увеличивает его. Иными словами, даже если игра выдает 140 фпс, игрок видит результат своих действий только с задержкой в несколько кадров.
Ray Reconstruction выдает результат близкий по производительности к DLSS Quality. Прирост производительности не гигантский, но главная фишка в том, что Ray Reconstruction рисует совершенно другую, и лучшую картинку, чем просто DLSS. При этом не повышает задержку, потому что она не наслаивается на DLSS в отличие от генерации кадров, а как бы заменяет его.
В общем, мой вердикт: новая штука от Nvidia дает очень красивую картинку, которую трудно сравнить с какой-то существующей технологией риалтайм рендера, и при этом обеспечивает играбельный FPS и условно-приемлемый инпут-лаг на экспериментальных настройках графики. Еще один шаг к рей трейсингу, пригодному для повсеместного применения, и в перспективе шаг к тому, чтобы графику в играх полностью рисовали нейросети.
Пока DLSS, Ray Regeneration, и подобные технологии требуют отрендеренный кадр, на котором они могут творить свою магию. А представьте, если бы они работали в режиме Data2Img, т.е. получали данные о том, что сейчас происходит в игре, и рисовали кадры исходя только из этого. Думаю, в будущем так и будет.
Кроме того, спустя почти 3 года после своего выхода наконец-то вышел Cyberpunk 2077.
Эти две новости связаны тем, что новая нейросеть Nvidia пока существует в виде опции в настройках графики Киберпанка версии 2.0.
DLSS Ray Regeneration представляет собой нейро-денойзер, который позволяет из сцен с очень примерными RT лучами быстро получать красивую картинку. Напоминает Cycles + Denoise в Блендере.
Выход большого дополнения Phantom Liberty будет только через несколько дней, а пока можно покрутить настроечки, добавленные в новом патче.
Предыдущей бомбой от Nvidia была генерация промежуточных кадров в DLSS 3, которая "бесплатно" давала целую кучу FPS (при условии покупки дорогущей 40XX видюхи). Загвоздка была в том, что эта технология не уменьшает Input Lag, а даже немного увеличивает его. Иными словами, даже если игра выдает 140 фпс, игрок видит результат своих действий только с задержкой в несколько кадров.
Ray Reconstruction выдает результат близкий по производительности к DLSS Quality. Прирост производительности не гигантский, но главная фишка в том, что Ray Reconstruction рисует совершенно другую, и лучшую картинку, чем просто DLSS. При этом не повышает задержку, потому что она не наслаивается на DLSS в отличие от генерации кадров, а как бы заменяет его.
В общем, мой вердикт: новая штука от Nvidia дает очень красивую картинку, которую трудно сравнить с какой-то существующей технологией риалтайм рендера, и при этом обеспечивает играбельный FPS и условно-приемлемый инпут-лаг на экспериментальных настройках графики. Еще один шаг к рей трейсингу, пригодному для повсеместного применения, и в перспективе шаг к тому, чтобы графику в играх полностью рисовали нейросети.
Пока DLSS, Ray Regeneration, и подобные технологии требуют отрендеренный кадр, на котором они могут творить свою магию. А представьте, если бы они работали в режиме Data2Img, т.е. получали данные о том, что сейчас происходит в игре, и рисовали кадры исходя только из этого. Думаю, в будущем так и будет.
👍6👏1
Media is too big
VIEW IN TELEGRAM
Сейчас занимаюсь как раз фотограмметрией и пришла рассылка от Blender Guru, в которой он напоминает, что недавно появилась такая технология, как Gaussian Splatting, которая позволяет из группы фоток или видео создать 3д сцену и рассмотреть пространство или объект под любым углом. Эта технология напоминает традиционную фотограмметрию, но скорее это разновидность или развитие NERF. Вся сцена состоит из цветных клякс, которые можно разглядеть, если приблизить камеру, а при отдалении они собираются в четкую картинку. Отсюда такое название. Неплохо получаются даже отражения.
Очень рекомендую посмотреть вот эту страничку с примерами, каждый из которых можно самому покрутить: gsplat.tech
Также Polycam сегодня объявили о том, что Gsplat можно теперь создавать в их приложении. Так что можно самому попробовать.
Из минусов можно назвать то, что это не настоящие 3д модели, а облака из клякс, и пока затруднительно использовать их для чего-то кроме осмотра сцен, например, для анимации.
Тем временем некоторые предлагают, наоборот, использовать Gsplat для визуализации уже существующих 3д сцен.
Ахах, забыл выключить микрофон, когда записывал видео для примера, так что беговая дорожка и попугай Маруся передают вам привет. ))
Очень рекомендую посмотреть вот эту страничку с примерами, каждый из которых можно самому покрутить: gsplat.tech
Также Polycam сегодня объявили о том, что Gsplat можно теперь создавать в их приложении. Так что можно самому попробовать.
Из минусов можно назвать то, что это не настоящие 3д модели, а облака из клякс, и пока затруднительно использовать их для чего-то кроме осмотра сцен, например, для анимации.
Тем временем некоторые предлагают, наоборот, использовать Gsplat для визуализации уже существующих 3д сцен.
Ахах, забыл выключить микрофон, когда записывал видео для примера, так что беговая дорожка и попугай Маруся передают вам привет. ))
👍4❤2
This media is not supported in your browser
VIEW IN TELEGRAM
И сразу же вдогонку, конечно же уже появились люди, которые на основе Gaussian Splatting разрабатывают генерацию 3д по одной картине, и по тексту, и экспорт в 3д модельку, и анимацию в миксамо.
Вот так моргнул и пропустил 5 лет развития нейронок.
Вот так моргнул и пропустил 5 лет развития нейронок.
🙈5👍2👏1
Media is too big
VIEW IN TELEGRAM
Друг сегодня спрашивал про аутпеинтинг и апскейл в Stable Diffusion. Решил с вами тоже поделиться, думаю, многим будет интересно.
Вообще в последнее время записываю много видео в таком неформальном виде по 3д и нейронкам, где я просто что-то объясняю экспромтом и показываю техники, которые сам использую на практике без особого плана. Если вам такое будет заходить, могу выкладывать в канале, чтобы не пропадало.
Пока вот видос про аутпеинтинг, далеко не исчерпывающий, конечно, для аутпеинтинга придумали уже много более продвинутых инструментов, но все же полезный. Попозже выложу про апскейл тоже.
Вообще в последнее время записываю много видео в таком неформальном виде по 3д и нейронкам, где я просто что-то объясняю экспромтом и показываю техники, которые сам использую на практике без особого плана. Если вам такое будет заходить, могу выкладывать в канале, чтобы не пропадало.
Пока вот видос про аутпеинтинг, далеко не исчерпывающий, конечно, для аутпеинтинга придумали уже много более продвинутых инструментов, но все же полезный. Попозже выложу про апскейл тоже.
👍9
Недавно появилась необходимость работать на двух компьютерах одновременно. Получается эргономический кошмар - две клавиатуры, две мышки на одном столе, постоянно путаешься где у тебя какая клава и мышка.
Сегодня поставил майкрософтовскую программу Mouse without Borders, которая позволяет одной мышкой и клавиатурой управлять любыми компьютерами в локальной сети. Выглядит как магия. Полное ощущение, что просто работаешь на одном компьютере с двумя мониторами. Общий буфер обмена, копируешь текст на одном компьютере - вставляешь на другом. Также написано, что можно так передавать небольшие файлы, но у меня что-то не получается. Также через общий буфер, к сожалению, нельзя копировать картинки.
В остальном это бомба. У кого стоит ноут перед компом, или отдельный комп для стриминга или рендера, очень рекомендую.
Сегодня поставил майкрософтовскую программу Mouse without Borders, которая позволяет одной мышкой и клавиатурой управлять любыми компьютерами в локальной сети. Выглядит как магия. Полное ощущение, что просто работаешь на одном компьютере с двумя мониторами. Общий буфер обмена, копируешь текст на одном компьютере - вставляешь на другом. Также написано, что можно так передавать небольшие файлы, но у меня что-то не получается. Также через общий буфер, к сожалению, нельзя копировать картинки.
В остальном это бомба. У кого стоит ноут перед компом, или отдельный комп для стриминга или рендера, очень рекомендую.
👍9🥰1👏1
Media is too big
VIEW IN TELEGRAM
Обещанное второе видео о том, как можно увеличивать изображения в Stable Diffusion и получать генерации высокого разрешения, а также добавлять детали с помощью моего любмимого трюка с Tile ControlNet.
👍6❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Что ж, могу с гордостью сказать, что присоединился к клубу из, наверно, трехзначного количества человек, которым удалось освоить Gaussian Splatting.
❤9👏3👍2
До двух раз быстрее
Или как очень долго запрягать и более-менее быстро ехать за новыми дровами от Nvidia
2 дня назад Nvidia прямо на сайте у себя написала, что с новыми драйверами версии 545.84 Stable Diffusion будет работать до 2х раз быстрее*.
* Только на видеокартах серии RTX (потому что ускорение происходит за счет задействования тензорных ядер) и при условии установки специального аддона для Automatic1111.
Оказалось, что в отличие от практически всех остальных аддонов для авто11, установить его практически невозможно. Он устанавливает 210 (карл) пакетов зависимостей через PIP, делает это так долго, что люди думают, что установка просто зависла. Некоторые из них он установить не может по той или иной причине, конфликтует с уже установленными пакетами и т.д. В общем, на гитхабе за 2 дня набралось уже больше 50 тем с проблемами (issues).
Второй и главный подвох в том, что для каждой комбинации чекпоинта, размера изображения и размера бэтча надо предварительно генерить специальный тензор-движок, на что уходит 5-10 минут. При этом это все еще и не работает с контрол нетом, под лоры надо тоже делать движки, SDXL не поддерживается, и ломается Highres Fix.
На реддите ребята, которые все же смогли все это запрячь, говорят об ускорении от 20 до 70%. Т.е. это может быть оправдано, если собираешься генерить огромную партию однотипных изображений.
Я для себя пока что решил, что я не так много генерю, чтобы можно было оправдать объем необходимой мордовни. Надеюсь, технология будет развиваться, и станет проще и удобнее в использовании.
Или как очень долго запрягать и более-менее быстро ехать за новыми дровами от Nvidia
2 дня назад Nvidia прямо на сайте у себя написала, что с новыми драйверами версии 545.84 Stable Diffusion будет работать до 2х раз быстрее*.
* Только на видеокартах серии RTX (потому что ускорение происходит за счет задействования тензорных ядер) и при условии установки специального аддона для Automatic1111.
Оказалось, что в отличие от практически всех остальных аддонов для авто11, установить его практически невозможно. Он устанавливает 210 (карл) пакетов зависимостей через PIP, делает это так долго, что люди думают, что установка просто зависла. Некоторые из них он установить не может по той или иной причине, конфликтует с уже установленными пакетами и т.д. В общем, на гитхабе за 2 дня набралось уже больше 50 тем с проблемами (issues).
Второй и главный подвох в том, что для каждой комбинации чекпоинта, размера изображения и размера бэтча надо предварительно генерить специальный тензор-движок, на что уходит 5-10 минут. При этом это все еще и не работает с контрол нетом, под лоры надо тоже делать движки, SDXL не поддерживается, и ломается Highres Fix.
На реддите ребята, которые все же смогли все это запрячь, говорят об ускорении от 20 до 70%. Т.е. это может быть оправдано, если собираешься генерить огромную партию однотипных изображений.
Я для себя пока что решил, что я не так много генерю, чтобы можно было оправдать объем необходимой мордовни. Надеюсь, технология будет развиваться, и станет проще и удобнее в использовании.
👍5