Для этих роликов, как пишет Андрей, изначально очень хотелось поиграться с симбиозом стимпанка и Пиксар. В общей сложности было около 300-400 генераций на каждый 10сек трехкадровый ролик. Отобранные стиллы апскейлились через Магнифик, чистились в Шопе и там же чуть инпейнтились).
Нейроанимация производилась в Ранвей Gen3 Alpha(экспозиции) и Клинг 1.5.
Всего было нагенерено около 100 шотов. Выбранные шоты апскейлились в Топаз. На этапе поста в АЕ шоты чуть клинапились, были добавлены vfx, в ролик с льдом было притречено и вкомпожен лого, накинули чуть грейда.
Весь продакшн занял около месяца.
Вот такой вот нейропостпродакшен!
@cgevent
Нейроанимация производилась в Ранвей Gen3 Alpha(экспозиции) и Клинг 1.5.
Всего было нагенерено около 100 шотов. Выбранные шоты апскейлились в Топаз. На этапе поста в АЕ шоты чуть клинапились, были добавлены vfx, в ролик с льдом было притречено и вкомпожен лого, накинули чуть грейда.
Весь продакшн занял около месяца.
Вот такой вот нейропостпродакшен!
@cgevent
Видеогенераторы потихоньку тырят новые фичи друг у друга и у image-генераторов.
Но вот эта вот Minimax Subject Reference выглядит чуть убойнее, чем у других.
Лора по одной фотке. Без цензуры. Хорошее попадание.
Ибо обучено именно на лицах, и насколько я знаю, на мишках, мышках и котиках работать не будет.
Пара читов, для тех, кто будет пробовать:
- чем качественнее фотки, тем лучше
- чем подробнее промпты, тем лучше
Поглядите примеры, и снова вспомните, где мы были год назад.
Мне нравится бьюти стилист(ка), тем что конец бьютиблоггерам, Крыгину в каждый дом.
И конечно умопомрачительный Tahta Ular // Serpent's Throne от великолепного Дана Прадана
Эта отвязанная трейлер-панк-история с крокодилом, змеями и дифчонками в духе Страх и Ненависть в Азии нравится мне сильно больше, чем скафандры от Dor Brothers.
Оцените жестоко-хороший монтаж, динамику движений (Минимакс хорош) и нейрокавер от Udio.
Ещё раз: на входе одна фотка и ваше умение вязатьлыко промпты. И Минимакс.
Поглядите 3, 4, 5й ролики, все поймёте
@cgevent
Но вот эта вот Minimax Subject Reference выглядит чуть убойнее, чем у других.
Лора по одной фотке. Без цензуры. Хорошее попадание.
Ибо обучено именно на лицах, и насколько я знаю, на мишках, мышках и котиках работать не будет.
Пара читов, для тех, кто будет пробовать:
- чем качественнее фотки, тем лучше
- чем подробнее промпты, тем лучше
Поглядите примеры, и снова вспомните, где мы были год назад.
Мне нравится бьюти стилист(ка), тем что конец бьютиблоггерам, Крыгину в каждый дом.
И конечно умопомрачительный Tahta Ular // Serpent's Throne от великолепного Дана Прадана
Эта отвязанная трейлер-панк-история с крокодилом, змеями и дифчонками в духе Страх и Ненависть в Азии нравится мне сильно больше, чем скафандры от Dor Brothers.
Оцените жестоко-хороший монтаж, динамику движений (Минимакс хорош) и нейрокавер от Udio.
Ещё раз: на входе одна фотка и ваше умение вязать
Поглядите 3, 4, 5й ролики, все поймёте
@cgevent
На этой неделе OpenAI готовится выпустить "Оператора"
Новую фичу ChatGPT, которая будет выполнять действия от имени пользователей в их браузерах.
Если вкратце:
- Оператор сам предлагает промпты
- Пользователи могут сохранять/обмениваться заданиями
- Пока недоступно по API
Если вдлинце:
OpenAI готовится выпустить на этой неделе новую функцию ChatGPT, которая позволит автоматизировать сложные задачи, обычно выполняемые через веб-браузер, такие как бронирование столиков в ресторанах или планирование поездок. Функция под названием "Оператор" предлагает пользователям различные категории задач, такие как обеды и мероприятия, доставка, покупки и путешествия, а также предлагаемые промпты в каждой категории. Когда пользователь вводит промпт, в chatGPT открывается миниатюрный экран, на котором отображается браузер и действия, выполняемые агентом Operator.
Агент также будет задавать уточняющие вопросы, например, о времени и количестве человек для заказа столика в ресторане.
Пользователи ChatGPT также смогут контролировать экран во время работы Operator, а также сохранять задания Operator и делиться ими с другими пользователями.
Маркетплейс Агентов? (попытка номер 2?)
В настоящее время Operator не работает с почтой Gmail, но позволяет пользователям заходить на другие сайты и оставаться под своим логином в разных сессиях.
https://www.theinformation.com/briefings/openai-preps-operator-release-for-this-week
P.S. Меня одного бесит, что ВСЕ примеры работы агентов ВСЕГДА начинаются с заказа столиков в ресторане или авиабилетов?
@cgevent
Новую фичу ChatGPT, которая будет выполнять действия от имени пользователей в их браузерах.
Если вкратце:
- Оператор сам предлагает промпты
- Пользователи могут сохранять/обмениваться заданиями
- Пока недоступно по API
Если вдлинце:
OpenAI готовится выпустить на этой неделе новую функцию ChatGPT, которая позволит автоматизировать сложные задачи, обычно выполняемые через веб-браузер, такие как бронирование столиков в ресторанах или планирование поездок. Функция под названием "Оператор" предлагает пользователям различные категории задач, такие как обеды и мероприятия, доставка, покупки и путешествия, а также предлагаемые промпты в каждой категории. Когда пользователь вводит промпт, в chatGPT открывается миниатюрный экран, на котором отображается браузер и действия, выполняемые агентом Operator.
Агент также будет задавать уточняющие вопросы, например, о времени и количестве человек для заказа столика в ресторане.
Пользователи ChatGPT также смогут контролировать экран во время работы Operator, а также сохранять задания Operator и делиться ими с другими пользователями.
Маркетплейс Агентов? (попытка номер 2?)
В настоящее время Operator не работает с почтой Gmail, но позволяет пользователям заходить на другие сайты и оставаться под своим логином в разных сессиях.
https://www.theinformation.com/briefings/openai-preps-operator-release-for-this-week
@cgevent
The Information
OpenAI Preps ‘Operator’ Release For This Week
OpenAI is preparing to release a new ChatGPT feature this week that will automate complex tasks typically done through the Web browser, such as making restaurant reservations or planning trips, according to a person with direct knowledge of the plans.
…
…
Ничего себе, а ответочка на Оператора из опенсорса (ТикТока) прилетела уже сегодня!
"Мы непосредственно воспринимаем изображение на экране, применяем процессы рассуждения и автономно генерируем правильные действия. Более того, мы может учиться на предыдущем опыте, итеративно улучшая свою работу за счет использования обратной связи с окружением."
А теперь внимание:
У них есть два способа генерирования следующего действия - один "интуитивный" (S1) и один "рассуждающий" (CoT) (S2).
S1 выигрывает на внутридоменных задачах, но S2 работает лучше внедоменных.
Все по Канеману - думай медленно, решай быстро. Под задачу.
Вот тут гитхаб: https://github.com/bytedance/UI-TARS-desktop
Тут фарш и модели: https://huggingface.co/bytedance-research/UI-TARS-7B-SFT
Тут рекомендуемый к просмотру собственный твиттор: https://x.com/UI_TARS
@cgevent
"Мы непосредственно воспринимаем изображение на экране, применяем процессы рассуждения и автономно генерируем правильные действия. Более того, мы может учиться на предыдущем опыте, итеративно улучшая свою работу за счет использования обратной связи с окружением."
А теперь внимание:
У них есть два способа генерирования следующего действия - один "интуитивный" (S1) и один "рассуждающий" (CoT) (S2).
S1 выигрывает на внутридоменных задачах, но S2 работает лучше внедоменных.
Все по Канеману - думай медленно, решай быстро. Под задачу.
Вот тут гитхаб: https://github.com/bytedance/UI-TARS-desktop
Тут фарш и модели: https://huggingface.co/bytedance-research/UI-TARS-7B-SFT
Тут рекомендуемый к просмотру собственный твиттор: https://x.com/UI_TARS
@cgevent
OpenAI Operator потихоньку пошел в народ, у которого есть подписка за 200 долларов.
Можно подглядеть URL на скрине.
А Антропик тем временем подсуетился и сделал бесплатный курс по использовании своего Computer use. Это когда с помощью Клода можно управлять курсором, нажимать кнопки и вбивать текст. Autohotkey на стероидах и ориентированный больше на гиков.
Держите ссылку:
Building toward Computer Use with Anthropic
@cgevent
Можно подглядеть URL на скрине.
А Антропик тем временем подсуетился и сделал бесплатный курс по использовании своего Computer use. Это когда с помощью Клода можно управлять курсором, нажимать кнопки и вбивать текст. Autohotkey на стероидах и ориентированный больше на гиков.
Держите ссылку:
Building toward Computer Use with Anthropic
@cgevent
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
EMO2: End-Effector Guided Audio-Driven Avatar Video Generation
Оживлятор портретов звуком от Alibaba. Пение, речь, танцы рук
Напоминаю, что кода EMO за прошедший год мы так и не дождались
Код ждем
#audio2video #speech2video #talkinghead #portrainanimation
Оживлятор портретов звуком от Alibaba. Пение, речь, танцы рук
Напоминаю, что кода EMO за прошедший год мы так и не дождались
Код ждем
#audio2video #speech2video #talkinghead #portrainanimation
Media is too big
VIEW IN TELEGRAM
Ну, за Холивуд.
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces
Еще 7 лет назад(!) у Диснея была работа Cardinal AI. Я помню, что еще на Ивентах показывал лихие ролики, где по сценарию генерился сториборд и раскадровка. Тогда, правда, не было генерации ассетов, и модельки брались из внутренней базы и просто расставлялись на основе семантического анализа текста.
Прошло 7 лет.
И вот, в препродакшене уже орудуют ИИ-агенты.
Я процитирую, это слишком амбициозно:
"FilmAgent - новая мультиагентная система совместной работы на основе LLM, предназначенная для автоматизации и оптимизации процесса производства фильмов. FilmAgent моделирует ключевые роли съемочной группы - режиссеров, сценаристов, актеров и кинематографистов - и симулирует эффективные человеческие рабочие процессы. Процесс разделен на три этапа: планирование, написание сценария и киносъемка. На каждом этапе команда (агентов) съемочных групп обеспечивает итеративную обратную связь, таким образом проверяя промежуточные результаты и сокращая количество ошибок."
Короче, вместо того, чтобы усадить chatGPT и попросить его написать сценарий, они сделали рой агентов, которые пишут, критикуют, улучшают, причем не только сценарий, но и отыгрывание ролей и ракурсы камеры.
А потом берут Юнити и визуализируют это!!!
В принципе остается подать это в video2video и кино готово!
Я порылся в репозитарии - там, конечно, все совсем из китайских палок и говна и сишарпа, но можно подставлять свои llm и tts.
Кстати, на гитхабе примеры работы ИИ-скрипт-докторов, до и после. Поглядите, забавно.
Но мне нравится сам процесс. Симулировать агентами, тот бардак, который творится на площадке или пьянство при написании сценариев - бесценно. Все, как у людей.
https://filmagent.github.io/
@cgevent
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces
Еще 7 лет назад(!) у Диснея была работа Cardinal AI. Я помню, что еще на Ивентах показывал лихие ролики, где по сценарию генерился сториборд и раскадровка. Тогда, правда, не было генерации ассетов, и модельки брались из внутренней базы и просто расставлялись на основе семантического анализа текста.
Прошло 7 лет.
И вот, в препродакшене уже орудуют ИИ-агенты.
Я процитирую, это слишком амбициозно:
"FilmAgent - новая мультиагентная система совместной работы на основе LLM, предназначенная для автоматизации и оптимизации процесса производства фильмов. FilmAgent моделирует ключевые роли съемочной группы - режиссеров, сценаристов, актеров и кинематографистов - и симулирует эффективные человеческие рабочие процессы. Процесс разделен на три этапа: планирование, написание сценария и киносъемка. На каждом этапе команда (агентов) съемочных групп обеспечивает итеративную обратную связь, таким образом проверяя промежуточные результаты и сокращая количество ошибок."
Короче, вместо того, чтобы усадить chatGPT и попросить его написать сценарий, они сделали рой агентов, которые пишут, критикуют, улучшают, причем не только сценарий, но и отыгрывание ролей и ракурсы камеры.
А потом берут Юнити и визуализируют это!!!
В принципе остается подать это в video2video и кино готово!
Я порылся в репозитарии - там, конечно, все совсем из китайских палок и говна и сишарпа, но можно подставлять свои llm и tts.
Кстати, на гитхабе примеры работы ИИ-скрипт-докторов, до и после. Поглядите, забавно.
Но мне нравится сам процесс. Симулировать агентами, тот бардак, который творится на площадке или пьянство при написании сценариев - бесценно. Все, как у людей.
https://filmagent.github.io/
@cgevent