Метаверсище и ИИще
37.5K subscribers
4.72K photos
2.91K videos
40 files
5.76K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
加入频道
Ну, за шрифтовых дизайнеров.

Смотрите, какая, оказывается, штука есть у Гугла!
Генератор шрифтов. Промптом пишете описание шрифта, а он вам выдает россыпь PNG файлов с английским алфавитом. Поддерживаются только буквы и только английские.
Похожая фича есть в Adobe Firefly, то тут бесплатно.
Фон придется удалять ручками.
Осторожно, можно залипнуть, особенно придумывая названия шрифтов типа Fractal Madness. Я лично залип.
Кстати, похоже, что для генерации логосов и иконок это может оказаться очень полезной штукой. Пример с мороженным тому пример.
https://labs.google/gentype
Сравнил шрифты от Google и от Адобченко. Гугловый выглядит явно концептуальней. Но адобовский уже готов к использованию в Adobe Express хоть сейчас. Можно лепить на любой макет. Ну и Гугловый - это все таки не шрифт, а набор картинок.
Промпт был
3D VR space and metaverse

Но адобе запрещает слово VR в промптах, что бы это не значило...
Runway GEN-3 начали раскатывать в общий доступ.
Там, похоже, пока нет цензуры на (вывод) людей, портретные планы выглядят очень хорошо.
Но смущает отчаянный слоу моушен на всех генерациях и полное отсутствие хоть какой-то динамики в кадре.
Хотя это я с жииру бешусь, зажрался в последний месяц с лумой, клингом и хедрой.
Го тестировать, кому выдали доступ.
Media is too big
VIEW IN TELEGRAM
Мемная культура в массы.

Широкие народные массы открывают для себя понятие ключевых кадров и прелестей морфинга.
В 2Д и 3Д софтах уже сто лет есть понятие key frame - фиксированный набор циферок в каком-то кадре. Этот набор может задавать позу персонажа, позицию объекта, положение камеры или картинки(в монтажке), поворот изображения, да все что угодно. Лишь бы этот набор был один и тот же для разных кадров(моментов времени). А дальше софт сам интерполирует промежуточные кадры и значения циферок к них, плавно перетекая из одного набора в другой. Получается анимация. Персонажа, картинки, камеры, объекта, зума и пр.
А теперь у нас на входе не набор циферок (хотя на самом деле он самый - набор ембедингов в латентном пространстве), а набор картинок. Грубо говоря, раскадровка. А Luma или Креа делают переход между ними, только не попиксельно, а в пространстве "смыслов и понятий", причем эти понятия находятся в голове черного ящика ИИ.
Я помню, когда появился Elastic Reality (лет 30 назад), все бросились делать клипы а ля Black or White Майкла Джексона. Клип действительно взрывал кожаные мозги, потому что был первым. Потом приелось.

Щас юзеры делают довольно забавные вещи - в шапке 20 известных мемов поданных, как начальный и конечных кадр. И так 20 раз. Получаем клип.
Первый раз действительно смешно, мемная культура работает на успех.
Но щас мы наедимся нового морфинга на стероидах и возникнет хороший вопрос, а что дальше. Поговорим в следующем посте.
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжение предыдущего поста.
Да, уже можно генерить эти ключевые кадры с помощью ИИ (смотрите вчерашний пост про машинки). И можно просить ИИ сделать "анимацию нашего мира", подавая эти кадры и описывая мир текстом. Но дальше встают извечные вопросы: "а как сделать так, чтобы зрителю понравилось так, чтобы не было вторично". Ну и дальше по списку: тайминги, история, арки, кульминации. Пока интернетик полон скорее визуальных новелл\комиксов\трейлеров с легким шевеляжем.
Но есть гипотеза, что ИИ сможет взять на себя вот это вот все. Синопсис, сценарий, концепты, раскадровки, определение оптимального тайминга в переходах, написание промптов, ну и те самые съемки\рендер. Надо его только подкормить киношным жаргоном и данными (хотя и сейчас уже достаточно).
Ну и мне видится такой пайплайн:
Есть монтажная колбаса с дорожками, где расставлены ключевые кадры раскадровок (которые можно двигать по таймингу). ИИ генерит переходы между ними. На каждый такой клип\кадр можно кликнуть "перегенери с учетом вот такого промпта". Грубо говоря, внеси правки клиента\режиссера.
Причем кнопки "внеси правки" расставлены везде, от сценария, до генерации концептов и ключевых кадров. Точно также как режиссер орет "поддайте эмоции, брёвна" или продюсер шипит "перепиши концовку".
На входе кнопка "сделай кино для меня", на выходе персонализированный контент. Для особо одаренных, которые без попкорна, в середине много кнопок "внеси правки".
И последний момент - для того чтобы осмысленно вносить правки, жбакая по кнопкам, надо бы выучиться на сценариста, режиссера, ну или хотя бы иметь конскую насмотренность и наслушанность. А иначе будут мемы.

Как справедливо пишет автор видео "технологически круто, но где управление процессом?"
Forwarded from Neural Shit
Media is too big
VIEW IN TELEGRAM
Н Е Й Р О Г И М Н А С Т И К А
Media is too big
VIEW IN TELEGRAM
После нейрогимнастики, подкину вам нейровелогонок.
Да, я понимаю, развидеть это уже нельзя, но Luma - тоже художник и она так видит. Точнее вот так у нее в башке хранится представление о велогонках. Просто она разговаривать еще не умеет, а только мычит. А мы ждем от нее связной чистой речи. Дайте ей логопеда, позанимайтесь с ней, подкиньте ей литературы - чужих хороших промптов. И девочка заговорит. А пока - мычит. Но смешно.
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и по мотивам предыдущего поста щас будет сильно ненаучный текст.

Написал про нейровелогонки и задумался, а что происходит в голове совсем маленьких детей, которые не то, что говорить, а осмысленно двигаться не могут. Какие у них в голове представления о велогонках, ну то есть о нашем мире. Похоже это на нейрогимнастику?

Есть ненаучная гипотеза, что у младенцев в голове изначально только два оттенка: черный и белый, очень хорошо или очень плохо, полное счастье или кромешный ад. А потом появляются оттенки серого. А потом вот эти вот нейровидео.

А дальше я сдам небольшую притчу.

В семье годился ребенок. Дочка 4 лет постоянно просит родителей остаться с младенцем наедине. Те недоумевают, пугаются, но потом спрашивают: "а зачем тебе?". Она отвечает: "Мне надо побыть с ней рядом, просто я уже начала забывать, как разговаривать с Богом".



Prompt: The spirit of a boy being guided by a fairy down a spiral staircase, with portals to other worlds along the walls. 16:9
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и поддадим еще эмоций.
Помните как вы бухтели "да что он может, у него нет души, он не может вызывать никаких эмоций, это мертвые пиксели, никаких эманаций, вот кожаные пиксели - это да, от них за версту разит страданиями художника".
Вы уже не можете отличить генеративные картинки от кожаных, и тексты от ЛЛМ от мясных букавок.
Видео - пока можете, по артефактам.
Но это пока. Ну и продолжайте свою песню про эмоции...
This media is not supported in your browser
VIEW IN TELEGRAM
Я тут неделю погружался в видео-генераторы, поэтому, извините, напишу еще, тем более на поляне ЛЛМ пока передышка.
Вот смотрите, как ловко Runway генерит руки пианиста. Твитторок уже покрикивает "GEN-3 решил проблему рук". Но нет. Просто в датасетах ОЧЕНЬ много видео, где абстрактный Женя Кисин играет обобщенного Стравинского, а камера с восторгом взирает на его руки.
Если посмотреть на другие примеры, то Runway НЕ решил проблему с руками, более того, она примерно там, где была год назад. Ибо нет размеченных датасетов типа "человек машет руками, с пятью пальцами на каждой".
Более того, после того, как мы приподвзвизжали по поводу ИИ-видосиков из Твиттора, стали приходить новости от тех, кому дали доступ. Вывод в среднем по больнице такой: в твитторах ацкий черри-пик. Чтобы получить сносный видос, надо потратить 10-15 итераций.
Это я к тому, что генерация видосов сейчас на очень начальной стадии (типа Stable Diffusion 1.0). И чтобы вы не впадали в прелесть. А то получите доступ через пару недель для всех, и загрустите, потому что в твитторах нарядно, а у вас - отстой.
Это не отменяет моего восторга о том, что это вообще возможно и что это вообще с нами происходит.
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и вот вам такой пример. Если описать картинку с рукой и пальцами еще можно в одном промпте (а еще проще щелкнуть на телефон свою растопыренную руку и загнать в КонтролНет).
То как вы опишете вот такое движение пальцев, когда захотите сделать подобное видео?
Ибо промптом не получится - нет в датасетах описания такого движения, да и язык у вас не повернется описать такое.
Снять на камеру референс? Вы уверены, что ваши сосиски так гнутся?
Остается сделать референс в 3Д, как на видео - это Блендор и Крита.
Но если сделать референс, то проще его отрендерить.
Это я к тому (в сотый раз), что описывать картинки и описывать видео - это две разных задачи. Разных порядков сложности. Пока мы на уровне с нейрогимнастикой.
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и на прошлой неделе долго рассматривал старые клипы с Шинед О'Коннор и Майклом Джексоном, а также игрался с Hedra и Face Fusion.

Просто хочу напомнить, что клип Black or White снят в 1991 году. И весь этот нейроморфинг между двумя кадрами в Люма, от которого народ писается твиттором, это не новая идея, а просто прием, придуманные очень давно. Просто он стал доступен ВСЕМ одной кнопкой. И морфит целые миры, а не картинки.
Я помню, как был на концерте Майкла Джексона в Москве в 1996 году. Стадион Динамо. 70 000 человек. Это те самые ощущения, которые не описываются словами и остаются в латентном пространстве. Майкл всегда опережал время. В 2019 был в Вегасе на шоу в честь Майкла, они сделали танцующую голограмму - это пробивает до слез.
Поэтому я просто потратил воскресенье и отреставрировал кусочек клипа с морфингом. Чтобы показать, что делали в 1991 году и просто отдать дань любимому артисту, который всегда был на шаг впереди.
Принес вам сравнения черри-пиков от Sora и от Runway GEN-3.

Слева промпт, а справа два видео. Сверху Runway, снизу Sora.

Как по мне Sora сильно лучше, а именно в динамике, во внутрикадровых движениях и у нее сильно меньше слоумоушена. GEN-3 также чересчур мылит задник. В примере с глазом, Runway выдает, конечно, больше деталей, но если посмотреть пять раз, то видно, что там минимум движения, традиционное ленивое скольжение камеры и просто покачивание картинкой. У Соры в этом смысле сильно лучше, есть моргание и движения зрачка.
В общем Runway сильно прокачан по качеству картинки, этакая инстаграммность в цветах и деталях. Sora - больше именно про видео.