Метаверсище и ИИще – Telegram

Метаверсище и ИИще

38.4K subscribers

4.84K photos

3.03K videos

40 files

5.83K links

Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn

About

Blog

Apps

Platform

Метаверсище и ИИще

38.4K subscribers

Метаверсище и ИИще

Для этих роликов, как пишет Андрей, изначально очень хотелось поиграться с симбиозом стимпанка и Пиксар. В общей сложности было около 300-400 генераций на каждый 10сек трехкадровый ролик. Отобранные стиллы апскейлились через Магнифик, чистились в Шопе и там же чуть инпейнтились).
Нейроанимация производилась в Ранвей Gen3 Alpha(экспозиции) и Клинг 1.5.
Всего было нагенерено около 100 шотов. Выбранные шоты апскейлились в Топаз. На этапе поста в АЕ шоты чуть клинапились, были добавлены vfx, в ролик с льдом было притречено и вкомпожен лого, накинули чуть грейда.
Весь продакшн занял около месяца.

Вот такой вот нейропостпродакшен!

@cgevent

6.9K viewsSergey Tsyptsyn ️️, 09:37

Метаверсище и ИИще

Media is too big

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Видеогенераторы потихоньку тырят новые фичи друг у друга и у image-генераторов.

Но вот эта вот Minimax Subject Reference выглядит чуть убойнее, чем у других.

Лора по одной фотке. Без цензуры. Хорошее попадание.

Ибо обучено именно на лицах, и насколько я знаю, на мишках, мышках и котиках работать не будет.

Пара читов, для тех, кто будет пробовать:
- чем качественнее фотки, тем лучше
- чем подробнее промпты, тем лучше

Поглядите примеры, и снова вспомните, где мы были год назад.

Мне нравится бьюти стилист(ка), тем что конец бьютиблоггерам, Крыгину в каждый дом.

И конечно умопомрачительный Tahta Ular // Serpent's Throne от великолепного Дана Прадана

Эта отвязанная трейлер-панк-история с крокодилом, змеями и дифчонками в духе Страх и Ненависть в Азии нравится мне сильно больше, чем скафандры от Dor Brothers.
Оцените жестоко-хороший монтаж, динамику движений (Минимакс хорош) и нейрокавер от Udio.

Ещё раз: на входе одна фотка и ваше умение вязать лыко промпты. И Минимакс.
Поглядите 3, 4, 5й ролики, все поймёте

@cgevent

8.0K viewsSergey Tsyptsyn ️️, 10:10

Метаверсище и ИИще

На этой неделе OpenAI готовится выпустить "Оператора"

Новую фичу ChatGPT, которая будет выполнять действия от имени пользователей в их браузерах.
Если вкратце:
- Оператор сам предлагает промпты
- Пользователи могут сохранять/обмениваться заданиями
- Пока недоступно по API

Если вдлинце:
OpenAI готовится выпустить на этой неделе новую функцию ChatGPT, которая позволит автоматизировать сложные задачи, обычно выполняемые через веб-браузер, такие как бронирование столиков в ресторанах или планирование поездок. Функция под названием "Оператор" предлагает пользователям различные категории задач, такие как обеды и мероприятия, доставка, покупки и путешествия, а также предлагаемые промпты в каждой категории. Когда пользователь вводит промпт, в chatGPT открывается миниатюрный экран, на котором отображается браузер и действия, выполняемые агентом Operator.
Агент также будет задавать уточняющие вопросы, например, о времени и количестве человек для заказа столика в ресторане.

Пользователи ChatGPT также смогут контролировать экран во время работы Operator, а также сохранять задания Operator и делиться ими с другими пользователями.

Маркетплейс Агентов? (попытка номер 2?)

В настоящее время Operator не работает с почтой Gmail, но позволяет пользователям заходить на другие сайты и оставаться под своим логином в разных сессиях.

https://www.theinformation.com/briefings/openai-preps-operator-release-for-this-week

P.S. Меня одного бесит, что ВСЕ примеры работы агентов ВСЕГДА начинаются с заказа столиков в ресторане или авиабилетов?

The Information

OpenAI Preps ‘Operator’ Release For This Week

OpenAI is preparing to release a new ChatGPT feature this week that will automate complex tasks typically done through the Web browser, such as making restaurant reservations or planning trips, according to a person with direct knowledge of the plans.

…

9.2K viewsSergey Tsyptsyn ️️, edited 17:10

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Ничего себе, а ответочка на Оператора из опенсорса (ТикТока) прилетела уже сегодня!

"Мы непосредственно воспринимаем изображение на экране, применяем процессы рассуждения и автономно генерируем правильные действия. Более того, мы может учиться на предыдущем опыте, итеративно улучшая свою работу за счет использования обратной связи с окружением."

А теперь внимание:
У них есть два способа генерирования следующего действия - один "интуитивный" (S1) и один "рассуждающий" (CoT) (S2).

S1 выигрывает на внутридоменных задачах, но S2 работает лучше внедоменных.

Все по Канеману - думай медленно, решай быстро. Под задачу.

Вот тут гитхаб: https://github.com/bytedance/UI-TARS-desktop
Тут фарш и модели: https://huggingface.co/bytedance-research/UI-TARS-7B-SFT

Тут рекомендуемый к просмотру собственный твиттор: https://x.com/UI_TARS

@cgevent

8.9K viewsSergey Tsyptsyn ️️, 17:30

Метаверсище и ИИще

OpenAI Operator потихоньку пошел в народ, у которого есть подписка за 200 долларов.

Можно подглядеть URL на скрине.

А Антропик тем временем подсуетился и сделал бесплатный курс по использовании своего Computer use. Это когда с помощью Клода можно управлять курсором, нажимать кнопки и вбивать текст. Autohotkey на стероидах и ориентированный больше на гиков.

Держите ссылку:
Building toward Computer Use with Anthropic

@cgevent

11.4K viewsSergey Tsyptsyn ️️, 10:05

Метаверсище и ИИще

Forwarded from Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

EMO2: End-Effector Guided Audio-Driven Avatar Video Generation

Оживлятор портретов звуком от Alibaba. Пение, речь, танцы рук

Напоминаю, что кода EMO за прошедший год мы так и не дождались

Код ждем

#audio2video #speech2video #talkinghead #portrainanimation

6.4K viewsSergey Tsyptsyn ️️, 11:20

Метаверсище и ИИще

Media is too big

VIEW IN TELEGRAM

Ну, за Холивуд.

FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Еще 7 лет назад(!) у Диснея была работа Cardinal AI. Я помню, что еще на Ивентах показывал лихие ролики, где по сценарию генерился сториборд и раскадровка. Тогда, правда, не было генерации ассетов, и модельки брались из внутренней базы и просто расставлялись на основе семантического анализа текста.

Прошло 7 лет.

И вот, в препродакшене уже орудуют ИИ-агенты.
Я процитирую, это слишком амбициозно:

"FilmAgent - новая мультиагентная система совместной работы на основе LLM, предназначенная для автоматизации и оптимизации процесса производства фильмов. FilmAgent моделирует ключевые роли съемочной группы - режиссеров, сценаристов, актеров и кинематографистов - и симулирует эффективные человеческие рабочие процессы. Процесс разделен на три этапа: планирование, написание сценария и киносъемка. На каждом этапе команда (агентов) съемочных групп обеспечивает итеративную обратную связь, таким образом проверяя промежуточные результаты и сокращая количество ошибок."

Короче, вместо того, чтобы усадить chatGPT и попросить его написать сценарий, они сделали рой агентов, которые пишут, критикуют, улучшают, причем не только сценарий, но и отыгрывание ролей и ракурсы камеры.

А потом берут Юнити и визуализируют это!!!

В принципе остается подать это в video2video и кино готово!

Я порылся в репозитарии - там, конечно, все совсем из китайских палок и говна и сишарпа, но можно подставлять свои llm и tts.

Кстати, на гитхабе примеры работы ИИ-скрипт-докторов, до и после. Поглядите, забавно.

Но мне нравится сам процесс. Симулировать агентами, тот бардак, который творится на площадке или пьянство при написании сценариев - бесценно. Все, как у людей.

https://filmagent.github.io/

@cgevent

8.6K viewsSergey Tsyptsyn ️️, edited 11:51