Dreams and Robots
3.07K subscribers
120 photos
20 videos
1 file
67 links
ИИ на практике или "мама, а меня тоже заменят?"
加入频道
Установил себе LLaMa-7b. Первый же разговор с ней надолго выбил меня из колеи.

Я перевёл его и озвучил искусственными дикторами; получилось что-то вроде подкаста про память, небытие и закат над морем.
8🔥2🤯1
Audio
41🤯5
Да, ChatGPT выдаёт гораздо более разумные тексты, отлично знает русский язык и хорошо владеет словом.

Но если вам нужно что-то по-настоящему креативное, идите за этим к Лламе. Я серьезно.

#llama
😁24👍1👎1
Выдалась минутка, и я поверхностно потестил Kandinski 2.1 от Сбера, через сайт https://fusionbrain.ai/diffusion

Что могу сказать? Результаты интересные. Конечно, до Стейбла с прокачанными чекпойнтами не дотягивает по многим статьям, а на сайте вообще минимальный функционал: только промпт и аутпейнт (лучше бы сделали просмотр батчей и настройки нормальные, честное слово). Так что пока использование в каких-то реальных проектах под сомнением. Но в целом я рад за ребят и поздравляю их с релизом!

Если они сделают удобную и расширяемую оболочку, API, дадут инструменты для обучения и не будут закрывать свой продукт под семью замками, то может даже смогут потягаться с лидерами нейросетевой гонки.

Как будет время — потестирую локальную версию.

#kandinski
👍22👏1
"Святой Фома, покровитель реалистов, почему обошёл ты меня своей милостью?"

В связи с выходом новой версии Midjourney все вокруг писают кипятком от фотореалистичных картинок. А я вот не понимаю, зачем вам фоторил? Вот вы сгенерировали себе подружку, это ладно, а что дальше?

Я вижу несколько вариантов использования фотореалистичных работ, где основной (помимо порно) - это замена фотостокам, которые и так всегда стоили десять копеек в базарный день. На мой взгляд гораздо больше смысла в качественной, минималистичной стилизации типа тех, что во вложении. Почему-то такие результаты меня впечатляют больше очередной "фотографии" со студийным светом и ретушью.

Но может я сужу со своей колокольни и чего-то не понимаю. Расскажите, как вы используете фотореалистичную генерацию в коммерческих проектах?
👍39🤔4🔥31
Дошли уши послушать недавний "Как делать игры" про нейросети. Есть несколько интересных кейсов, но вот что любопытно: за почти два часа подкаста ни разу не упомянули Stable Diffusion. Все разговоры были про Midjourney, причём в духе: вот было бы круто к Midjourney прикрутить возможность переделать фрагмент изображения.

И это я не в пику гостям, я с интересом их послушал и не сомневаюсь в их профессионализме.

Я просто подумал, что нейросети так быстро развиваются, что нужно быть одержимым, чтобы хотя бы успевать читать все новости и поверхностно разбираться в том, что творится в этой сфере. А уж о том, чтобы протестировать каждую новую фишку, и речи нет. Это физически невозможно.

"Нужно бежать со всех ног, чтобы только оставаться на месте, а чтобы куда-то попасть, надо бежать как минимум вдвое быстрее!" Стоит выпасть из информационного поля на неделю, и всё, будто год прошёл, догоняй!

Это вызывает острое чувство Fear of missing out, что в конечном итоге может привести к выгоранию.

Мне кажется, сейчас такое время, что пора выбирать специализацию. Например заниматься только обучением, или стилизацией видео, или, я не знаю, лучше всех генерировать жаб, играющих на гитарах. По крайней мере мои попытки ухватить всё и сразу приводят лишь к разочарованию в способностях моего мозга.

Как вы сохраняете рассудок в этой гонке?

P.S. А подкаст, все-таки, послушайте. Он хороший.

https://www.youtube.com/watch?v=GLU6jH84iM0

#видео #мысли
22👍9🔥2💯2🤯1
Победное шествие ControlNet заставило многих забыть о стареньком скромном скрипте под названием Image2image Alternative Test, а между тем он, пожалуй, лучше других справляется с задачей стилизации картинки.

Он работает достаточно просто. Исходная картинка прогоняется через сэмплер Euler в обратную сторону, то есть превращается в шум, из которого она могла быть сгенерирована. Этот шум используется для генерации с измененным запросом.

Понимая алгоритм работы мы можем легко объяснить настройки скрипта.

1. Оба запроса, исходный и новый, должны почти совпадать, отличаясь лишь в деталях

2. Число шагов в Stable Diffusion и в Alternative test должно быть одинаковым. Сколько шагов мы сделали в сторону шума, на столько же мы должны продвинуться обратно. Чаще всего приходится их задирать выше 50

3. Скрипт работает только с сэмплером Euler

4. CFG Scale в данном случае работает как сила эффекта. Когда он ближе к нулю, запрос игнорируется и используется шум, а значит мы будем ближе к исходной картинке. Авторы скрипта советуют не поднимать его выше 2, но это ерунда, можно ставить и больше, просто будьте готовы к значительным изменениям

5. Denoising strength должен быть равен 1

6. Decode CFG Scale - это CFG, который используется при генерации шума. На практике почти всегда приходится его делать очень низким в диапазоне 0.5-1.5

7. Randomness позволяет добавить немного случайного шума. При нуле генерация будет все время одинаковой

8. Sigma adjustment - с этой галкой цвета будут больше соответствовать оригиналу

Алгоритм работы такой:

1. В img2img загружаете исходную картинку

2. Выбираете в списке скрипт img2img alternative test

3. В Original prompt записываете описание исходной картинки, можно воспользоваться Interrogate Clip

4. Снимите галку Override prompt и в запрос самого img2img запишите измененный промпт

5. Уменьшите CFG Scale до 1-2

6. Установите Denoising strength в 1

7. Включите Sigma Adjustment for finding noise for image

8. Добавьте КонтролНет, если испортилась исходная композиция
🔥26👍8