Метаверсище и ИИще
38.4K subscribers
4.84K photos
3.03K videos
40 files
5.83K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
加入频道
Для этих роликов, как пишет Андрей, изначально очень хотелось поиграться с симбиозом стимпанка и Пиксар. В общей сложности было около 300-400 генераций на каждый 10сек трехкадровый ролик. Отобранные стиллы апскейлились через Магнифик, чистились в Шопе и там же чуть инпейнтились).
Нейроанимация производилась в Ранвей Gen3 Alpha(экспозиции) и Клинг 1.5.
Всего было нагенерено около 100 шотов. Выбранные шоты апскейлились в Топаз. На этапе поста в АЕ шоты чуть клинапились, были добавлены vfx, в ролик с льдом было притречено и вкомпожен лого, накинули чуть грейда.
Весь продакшн занял около месяца.

Вот такой вот нейропостпродакшен!

@cgevent
Видеогенераторы потихоньку тырят новые фичи друг у друга и у image-генераторов.

Но вот эта вот Minimax Subject Reference выглядит чуть убойнее, чем у других.

Лора по одной фотке. Без цензуры. Хорошее попадание.

Ибо обучено именно на лицах, и насколько я знаю, на мишках, мышках и котиках работать не будет.

Пара читов, для тех, кто будет пробовать:
- чем качественнее фотки, тем лучше
- чем подробнее промпты, тем лучше

Поглядите примеры, и снова вспомните, где мы были год назад.

Мне нравится бьюти стилист(ка), тем что конец бьютиблоггерам, Крыгину в каждый дом.

И конечно умопомрачительный Tahta Ular // Serpent's Throne от великолепного Дана Прадана

Эта отвязанная трейлер-панк-история с крокодилом, змеями и дифчонками в духе Страх и Ненависть в Азии нравится мне сильно больше, чем скафандры от Dor Brothers.
Оцените жестоко-хороший монтаж, динамику движений (Минимакс хорош) и нейрокавер от Udio.

Ещё раз: на входе одна фотка и ваше умение вязать лыко промпты. И Минимакс.
Поглядите 3, 4, 5й ролики, все поймёте

@cgevent
На этой неделе OpenAI готовится выпустить "Оператора"

Новую фичу ChatGPT, которая будет выполнять действия от имени пользователей в их браузерах.
Если вкратце:
- Оператор сам предлагает промпты
- Пользователи могут сохранять/обмениваться заданиями
- Пока недоступно по API


Если вдлинце:
OpenAI готовится выпустить на этой неделе новую функцию ChatGPT, которая позволит автоматизировать сложные задачи, обычно выполняемые через веб-браузер, такие как бронирование столиков в ресторанах или планирование поездок. Функция под названием "Оператор" предлагает пользователям различные категории задач, такие как обеды и мероприятия, доставка, покупки и путешествия, а также предлагаемые промпты в каждой категории. Когда пользователь вводит промпт, в chatGPT открывается миниатюрный экран, на котором отображается браузер и действия, выполняемые агентом Operator.
Агент также будет задавать уточняющие вопросы, например, о времени и количестве человек для заказа столика в ресторане.

Пользователи ChatGPT также смогут контролировать экран во время работы Operator, а также сохранять задания Operator и делиться ими с другими пользователями.

Маркетплейс Агентов? (попытка номер 2?)

В настоящее время Operator не работает с почтой Gmail, но позволяет пользователям заходить на другие сайты и оставаться под своим логином в разных сессиях.

https://www.theinformation.com/briefings/openai-preps-operator-release-for-this-week

P.S. Меня одного бесит, что ВСЕ примеры работы агентов ВСЕГДА начинаются с заказа столиков в ресторане или авиабилетов?

@cgevent
Ничего себе, а ответочка на Оператора из опенсорса (ТикТока) прилетела уже сегодня!

"Мы непосредственно воспринимаем изображение на экране, применяем процессы рассуждения и автономно генерируем правильные действия. Более того, мы может учиться на предыдущем опыте, итеративно улучшая свою работу за счет использования обратной связи с окружением."

А теперь внимание:
У них есть два способа генерирования следующего действия - один "интуитивный" (S1) и один "рассуждающий" (CoT) (S2).

S1 выигрывает на внутридоменных задачах, но S2 работает лучше внедоменных.

Все по Канеману - думай медленно, решай быстро. Под задачу.

Вот тут гитхаб: https://github.com/bytedance/UI-TARS-desktop
Тут фарш и модели: https://huggingface.co/bytedance-research/UI-TARS-7B-SFT

Тут рекомендуемый к просмотру собственный твиттор: https://x.com/UI_TARS

@cgevent
OpenAI Operator потихоньку пошел в народ, у которого есть подписка за 200 долларов.

Можно подглядеть URL на скрине.

А Антропик тем временем подсуетился и сделал бесплатный курс по использовании своего Computer use. Это когда с помощью Клода можно управлять курсором, нажимать кнопки и вбивать текст. Autohotkey на стероидах и ориентированный больше на гиков.

Держите ссылку:
Building toward Computer Use with Anthropic

@cgevent
Media is too big
VIEW IN TELEGRAM
Ну, за Холивуд.

FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Еще 7 лет назад(!) у Диснея была работа Cardinal AI. Я помню, что еще на Ивентах показывал лихие ролики, где по сценарию генерился сториборд и раскадровка. Тогда, правда, не было генерации ассетов, и модельки брались из внутренней базы и просто расставлялись на основе семантического анализа текста.

Прошло 7 лет.

И вот, в препродакшене уже орудуют ИИ-агенты.
Я процитирую, это слишком амбициозно:

"FilmAgent - новая мультиагентная система совместной работы на основе LLM, предназначенная для автоматизации и оптимизации процесса производства фильмов. FilmAgent моделирует ключевые роли съемочной группы - режиссеров, сценаристов, актеров и кинематографистов - и симулирует эффективные человеческие рабочие процессы. Процесс разделен на три этапа: планирование, написание сценария и киносъемка. На каждом этапе команда (агентов) съемочных групп обеспечивает итеративную обратную связь, таким образом проверяя промежуточные результаты и сокращая количество ошибок."


Короче, вместо того, чтобы усадить chatGPT и попросить его написать сценарий, они сделали рой агентов, которые пишут, критикуют, улучшают, причем не только сценарий, но и отыгрывание ролей и ракурсы камеры.

А потом берут Юнити и визуализируют это!!!

В принципе остается подать это в video2video и кино готово!

Я порылся в репозитарии - там, конечно, все совсем из китайских палок и говна и сишарпа, но можно подставлять свои llm и tts.

Кстати, на гитхабе примеры работы ИИ-скрипт-докторов, до и после. Поглядите, забавно.

Но мне нравится сам процесс. Симулировать агентами, тот бардак, который творится на площадке или пьянство при написании сценариев - бесценно. Все, как у людей.

https://filmagent.github.io/

@cgevent