Видеогенераторы потихоньку тырят новые фичи друг у друга и у image-генераторов.
Но вот эта вот Minimax Subject Reference выглядит чуть убойнее, чем у других.
Лора по одной фотке. Без цензуры. Хорошее попадание.
Ибо обучено именно на лицах, и насколько я знаю, на мишках, мышках и котиках работать не будет.
Пара читов, для тех, кто будет пробовать:
- чем качественнее фотки, тем лучше
- чем подробнее промпты, тем лучше
Поглядите примеры, и снова вспомните, где мы были год назад.
Мне нравится бьюти стилист(ка), тем что конец бьютиблоггерам, Крыгину в каждый дом.
И конечно умопомрачительный Tahta Ular // Serpent's Throne от великолепного Дана Прадана
Эта отвязанная трейлер-панк-история с крокодилом, змеями и дифчонками в духе Страх и Ненависть в Азии нравится мне сильно больше, чем скафандры от Dor Brothers.
Оцените жестоко-хороший монтаж, динамику движений (Минимакс хорош) и нейрокавер от Udio.
Ещё раз: на входе одна фотка и ваше умение вязатьлыко промпты. И Минимакс.
Поглядите 3, 4, 5й ролики, все поймёте
@cgevent
Но вот эта вот Minimax Subject Reference выглядит чуть убойнее, чем у других.
Лора по одной фотке. Без цензуры. Хорошее попадание.
Ибо обучено именно на лицах, и насколько я знаю, на мишках, мышках и котиках работать не будет.
Пара читов, для тех, кто будет пробовать:
- чем качественнее фотки, тем лучше
- чем подробнее промпты, тем лучше
Поглядите примеры, и снова вспомните, где мы были год назад.
Мне нравится бьюти стилист(ка), тем что конец бьютиблоггерам, Крыгину в каждый дом.
И конечно умопомрачительный Tahta Ular // Serpent's Throne от великолепного Дана Прадана
Эта отвязанная трейлер-панк-история с крокодилом, змеями и дифчонками в духе Страх и Ненависть в Азии нравится мне сильно больше, чем скафандры от Dor Brothers.
Оцените жестоко-хороший монтаж, динамику движений (Минимакс хорош) и нейрокавер от Udio.
Ещё раз: на входе одна фотка и ваше умение вязать
Поглядите 3, 4, 5й ролики, все поймёте
@cgevent
На этой неделе OpenAI готовится выпустить "Оператора"
Новую фичу ChatGPT, которая будет выполнять действия от имени пользователей в их браузерах.
Если вкратце:
- Оператор сам предлагает промпты
- Пользователи могут сохранять/обмениваться заданиями
- Пока недоступно по API
Если вдлинце:
OpenAI готовится выпустить на этой неделе новую функцию ChatGPT, которая позволит автоматизировать сложные задачи, обычно выполняемые через веб-браузер, такие как бронирование столиков в ресторанах или планирование поездок. Функция под названием "Оператор" предлагает пользователям различные категории задач, такие как обеды и мероприятия, доставка, покупки и путешествия, а также предлагаемые промпты в каждой категории. Когда пользователь вводит промпт, в chatGPT открывается миниатюрный экран, на котором отображается браузер и действия, выполняемые агентом Operator.
Агент также будет задавать уточняющие вопросы, например, о времени и количестве человек для заказа столика в ресторане.
Пользователи ChatGPT также смогут контролировать экран во время работы Operator, а также сохранять задания Operator и делиться ими с другими пользователями.
Маркетплейс Агентов? (попытка номер 2?)
В настоящее время Operator не работает с почтой Gmail, но позволяет пользователям заходить на другие сайты и оставаться под своим логином в разных сессиях.
https://www.theinformation.com/briefings/openai-preps-operator-release-for-this-week
P.S. Меня одного бесит, что ВСЕ примеры работы агентов ВСЕГДА начинаются с заказа столиков в ресторане или авиабилетов?
@cgevent
Новую фичу ChatGPT, которая будет выполнять действия от имени пользователей в их браузерах.
Если вкратце:
- Оператор сам предлагает промпты
- Пользователи могут сохранять/обмениваться заданиями
- Пока недоступно по API
Если вдлинце:
OpenAI готовится выпустить на этой неделе новую функцию ChatGPT, которая позволит автоматизировать сложные задачи, обычно выполняемые через веб-браузер, такие как бронирование столиков в ресторанах или планирование поездок. Функция под названием "Оператор" предлагает пользователям различные категории задач, такие как обеды и мероприятия, доставка, покупки и путешествия, а также предлагаемые промпты в каждой категории. Когда пользователь вводит промпт, в chatGPT открывается миниатюрный экран, на котором отображается браузер и действия, выполняемые агентом Operator.
Агент также будет задавать уточняющие вопросы, например, о времени и количестве человек для заказа столика в ресторане.
Пользователи ChatGPT также смогут контролировать экран во время работы Operator, а также сохранять задания Operator и делиться ими с другими пользователями.
Маркетплейс Агентов? (попытка номер 2?)
В настоящее время Operator не работает с почтой Gmail, но позволяет пользователям заходить на другие сайты и оставаться под своим логином в разных сессиях.
https://www.theinformation.com/briefings/openai-preps-operator-release-for-this-week
@cgevent
The Information
OpenAI Preps ‘Operator’ Release For This Week
OpenAI is preparing to release a new ChatGPT feature this week that will automate complex tasks typically done through the Web browser, such as making restaurant reservations or planning trips, according to a person with direct knowledge of the plans.
…
…
Ничего себе, а ответочка на Оператора из опенсорса (ТикТока) прилетела уже сегодня!
"Мы непосредственно воспринимаем изображение на экране, применяем процессы рассуждения и автономно генерируем правильные действия. Более того, мы может учиться на предыдущем опыте, итеративно улучшая свою работу за счет использования обратной связи с окружением."
А теперь внимание:
У них есть два способа генерирования следующего действия - один "интуитивный" (S1) и один "рассуждающий" (CoT) (S2).
S1 выигрывает на внутридоменных задачах, но S2 работает лучше внедоменных.
Все по Канеману - думай медленно, решай быстро. Под задачу.
Вот тут гитхаб: https://github.com/bytedance/UI-TARS-desktop
Тут фарш и модели: https://huggingface.co/bytedance-research/UI-TARS-7B-SFT
Тут рекомендуемый к просмотру собственный твиттор: https://x.com/UI_TARS
@cgevent
"Мы непосредственно воспринимаем изображение на экране, применяем процессы рассуждения и автономно генерируем правильные действия. Более того, мы может учиться на предыдущем опыте, итеративно улучшая свою работу за счет использования обратной связи с окружением."
А теперь внимание:
У них есть два способа генерирования следующего действия - один "интуитивный" (S1) и один "рассуждающий" (CoT) (S2).
S1 выигрывает на внутридоменных задачах, но S2 работает лучше внедоменных.
Все по Канеману - думай медленно, решай быстро. Под задачу.
Вот тут гитхаб: https://github.com/bytedance/UI-TARS-desktop
Тут фарш и модели: https://huggingface.co/bytedance-research/UI-TARS-7B-SFT
Тут рекомендуемый к просмотру собственный твиттор: https://x.com/UI_TARS
@cgevent
OpenAI Operator потихоньку пошел в народ, у которого есть подписка за 200 долларов.
Можно подглядеть URL на скрине.
А Антропик тем временем подсуетился и сделал бесплатный курс по использовании своего Computer use. Это когда с помощью Клода можно управлять курсором, нажимать кнопки и вбивать текст. Autohotkey на стероидах и ориентированный больше на гиков.
Держите ссылку:
Building toward Computer Use with Anthropic
@cgevent
Можно подглядеть URL на скрине.
А Антропик тем временем подсуетился и сделал бесплатный курс по использовании своего Computer use. Это когда с помощью Клода можно управлять курсором, нажимать кнопки и вбивать текст. Autohotkey на стероидах и ориентированный больше на гиков.
Держите ссылку:
Building toward Computer Use with Anthropic
@cgevent
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
EMO2: End-Effector Guided Audio-Driven Avatar Video Generation
Оживлятор портретов звуком от Alibaba. Пение, речь, танцы рук
Напоминаю, что кода EMO за прошедший год мы так и не дождались
Код ждем
#audio2video #speech2video #talkinghead #portrainanimation
Оживлятор портретов звуком от Alibaba. Пение, речь, танцы рук
Напоминаю, что кода EMO за прошедший год мы так и не дождались
Код ждем
#audio2video #speech2video #talkinghead #portrainanimation
Media is too big
VIEW IN TELEGRAM
Ну, за Холивуд.
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces
Еще 7 лет назад(!) у Диснея была работа Cardinal AI. Я помню, что еще на Ивентах показывал лихие ролики, где по сценарию генерился сториборд и раскадровка. Тогда, правда, не было генерации ассетов, и модельки брались из внутренней базы и просто расставлялись на основе семантического анализа текста.
Прошло 7 лет.
И вот, в препродакшене уже орудуют ИИ-агенты.
Я процитирую, это слишком амбициозно:
"FilmAgent - новая мультиагентная система совместной работы на основе LLM, предназначенная для автоматизации и оптимизации процесса производства фильмов. FilmAgent моделирует ключевые роли съемочной группы - режиссеров, сценаристов, актеров и кинематографистов - и симулирует эффективные человеческие рабочие процессы. Процесс разделен на три этапа: планирование, написание сценария и киносъемка. На каждом этапе команда (агентов) съемочных групп обеспечивает итеративную обратную связь, таким образом проверяя промежуточные результаты и сокращая количество ошибок."
Короче, вместо того, чтобы усадить chatGPT и попросить его написать сценарий, они сделали рой агентов, которые пишут, критикуют, улучшают, причем не только сценарий, но и отыгрывание ролей и ракурсы камеры.
А потом берут Юнити и визуализируют это!!!
В принципе остается подать это в video2video и кино готово!
Я порылся в репозитарии - там, конечно, все совсем из китайских палок и говна и сишарпа, но можно подставлять свои llm и tts.
Кстати, на гитхабе примеры работы ИИ-скрипт-докторов, до и после. Поглядите, забавно.
Но мне нравится сам процесс. Симулировать агентами, тот бардак, который творится на площадке или пьянство при написании сценариев - бесценно. Все, как у людей.
https://filmagent.github.io/
@cgevent
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces
Еще 7 лет назад(!) у Диснея была работа Cardinal AI. Я помню, что еще на Ивентах показывал лихие ролики, где по сценарию генерился сториборд и раскадровка. Тогда, правда, не было генерации ассетов, и модельки брались из внутренней базы и просто расставлялись на основе семантического анализа текста.
Прошло 7 лет.
И вот, в препродакшене уже орудуют ИИ-агенты.
Я процитирую, это слишком амбициозно:
"FilmAgent - новая мультиагентная система совместной работы на основе LLM, предназначенная для автоматизации и оптимизации процесса производства фильмов. FilmAgent моделирует ключевые роли съемочной группы - режиссеров, сценаристов, актеров и кинематографистов - и симулирует эффективные человеческие рабочие процессы. Процесс разделен на три этапа: планирование, написание сценария и киносъемка. На каждом этапе команда (агентов) съемочных групп обеспечивает итеративную обратную связь, таким образом проверяя промежуточные результаты и сокращая количество ошибок."
Короче, вместо того, чтобы усадить chatGPT и попросить его написать сценарий, они сделали рой агентов, которые пишут, критикуют, улучшают, причем не только сценарий, но и отыгрывание ролей и ракурсы камеры.
А потом берут Юнити и визуализируют это!!!
В принципе остается подать это в video2video и кино готово!
Я порылся в репозитарии - там, конечно, все совсем из китайских палок и говна и сишарпа, но можно подставлять свои llm и tts.
Кстати, на гитхабе примеры работы ИИ-скрипт-докторов, до и после. Поглядите, забавно.
Но мне нравится сам процесс. Симулировать агентами, тот бардак, который творится на площадке или пьянство при написании сценариев - бесценно. Все, как у людей.
https://filmagent.github.io/
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Так, у нас опять гонка видеогенераторов.
EasyAnimate от Алибабищенко обновился to версии 5.1!
Опенсорсная модель на 12B параметров, сравнимая Hunyuan-Video, но с поддержкой I2V, V2V и разных управлялок и контролнетов типа Canny/Pose/Trajectory/Camera control.
В новой версии 5.1 с качестве text encoder используется Qwen2 VL, а в качестве sampling method - Flow. Поддерживается двуязычное предсказание на китайском и английском языках. В дополнение к обычным элементам управления, таким как Canny и Pose, он также поддерживает управление траекторией, управление камерой
Надо тестировать срочно! И скачивать 39 ГИГОВ!
Кто-то запустил на 12gb with CPU offloading, но я не верю.
Есть спейс, но он намертво повален, такими как я:
https://huggingface.co/spaces/alibaba-pai/EasyAnimate
ComfyUI (Search EasyAnimate in ComfyUI Manager): https://github.com/aigc-apps/EasyAnimate/blob/main/comfyui/README.md
Code: https://github.com/aigc-apps/EasyAnimate
Models: https://huggingface.co/collections/alibaba-pai/easyanimate-v51-67920469c7e21dde1faab66c
Фарш и веса: https://modelscope.cn/models/PAI/EasyAnimateV5.1-12b-zh-InP
@cgevent
EasyAnimate от Алибабищенко обновился to версии 5.1!
Опенсорсная модель на 12B параметров, сравнимая Hunyuan-Video, но с поддержкой I2V, V2V и разных управлялок и контролнетов типа Canny/Pose/Trajectory/Camera control.
В новой версии 5.1 с качестве text encoder используется Qwen2 VL, а в качестве sampling method - Flow. Поддерживается двуязычное предсказание на китайском и английском языках. В дополнение к обычным элементам управления, таким как Canny и Pose, он также поддерживает управление траекторией, управление камерой
Надо тестировать срочно! И скачивать 39 ГИГОВ!
Кто-то запустил на 12gb with CPU offloading, но я не верю.
Есть спейс, но он намертво повален, такими как я:
https://huggingface.co/spaces/alibaba-pai/EasyAnimate
ComfyUI (Search EasyAnimate in ComfyUI Manager): https://github.com/aigc-apps/EasyAnimate/blob/main/comfyui/README.md
Code: https://github.com/aigc-apps/EasyAnimate
Models: https://huggingface.co/collections/alibaba-pai/easyanimate-v51-67920469c7e21dde1faab66c
Фарш и веса: https://modelscope.cn/models/PAI/EasyAnimateV5.1-12b-zh-InP
@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Итак, более полная информация из блогпостов:
— Computer-Using Agent (CUA) объединяет возможности обработки изображений GPT-4o и рассуждения модели посредством обучения с подкреплением (Reinforcement Learning); CUA обучен взаимодействовать с графическими пользовательскими интерфейсами — кнопками, меню и текстовыми полями, которые люди видят на экране. Использование RL, как и в случае o1/o3, означает, что как только OpenAI наладят процесс сбора данных для закидывания в обучающий процесс — прогресс попрёт.
— Компания несколько раз пишет, что это research preview, который может ошибаться и не работать, он не надёжен. И в то же время они очень ждут обратной связи на то, что и где не работает, чтобы в ближайших итерациях это исправить. В настройках можно включить опцию тренировки на ваших запросах и сессиях — я это обязательно сделаю, чтобы именно мои задачи начали решаться лучше.
— Если CUA сталкивается с трудностями или совершает ошибки, то оно может выбраться из ямы за счёт рассуждений и самокоррекции. Если это не удастся — система возвращает управление пользователю с запросом на конкретные действия.
— Оператор обучен заранее просить пользователя взять на себя выполнение задач, требующих захода в систему по данным учётной записи, ввода платежных данных или решения CAPTCHA (да-да, теперь мы решаем капчу за машин).
— Пользователи могут удалить все данные о просмотренных сайтах и выйти из всех аккаунтов одним щелчком мыши в разделе «Конфиденциальность» в настройках. Прошлые запросы к Operator также можно быстро удалить. Отсюда следует, что в Operator будут храниться ваши учётные и платежные данные (ну, как в обычном браузере, то есть сессия делится между разными запросами), и что не нужно логиниться каждый раз или добавлять свою карточку.
— OpenAI делает большой упор на безопасность системы и устойчивость к атакам. Весь процесс мониторится отдельной моделью, которая может вызвать остановку выполнения, если что-то не так. Кроме этого, некоторые подозрительные ситуации будут отправляться на ручную проверку, по результатам которой атаку/проблему можно пометить и быстро добавить в мониторинг (в течение нескольких часов).
— На агентских бенчмарках, как писал выше, результаты везде лучше всех других, включая Anthropic Computer Use. Про бенчмарки напишу отдельные посты на выходных, чтобы понять, что мы оцениваем.
— Что интересно, так это примеры, выложенные в блоге. Очень рекомендую с ними ознакомиться, чтобы понять, как формировать свои запросы (там есть примеры неудачных запросов, когда одна и та же задача то решается в 10/10 раз, то 3/10 если не так попросить или что-то не уточнить). В этих примерах по 150-450 шагов (!) выполнения задач. Правда каждый шаг очень маленький — сюда входят даже скриншоты страницы и нажатия кнопки Enter для отправки запроса.
— Чем больше шагов, тем больше качество (что показывает способность модели к выходу из тупиков). OpenAI гордо пишут «We observed test-time scaling», а там где scaling, там и приросты не за горами.
— Один из примеров запросов, который мне понравился и наподобие которого я буду закидывать сам: «Help me export charts, graph or other images from docx files received in email "Lecture Document" in Notes folder and upload these png files to the figures/ folder in Google Drive for later use (use numbers to name them)»
Выходя за рамки специализированных API-интерфейсов, удобных для работы с агентами, CUA может адаптироваться к любой доступной компьютерной среде, по-настоящему охватывая длинный хвост вариантов использования, которые остаются вне досягаемости большинства ИИ-моделей на данный момент.
— Computer-Using Agent (CUA) объединяет возможности обработки изображений GPT-4o и рассуждения модели посредством обучения с подкреплением (Reinforcement Learning); CUA обучен взаимодействовать с графическими пользовательскими интерфейсами — кнопками, меню и текстовыми полями, которые люди видят на экране. Использование RL, как и в случае o1/o3, означает, что как только OpenAI наладят процесс сбора данных для закидывания в обучающий процесс — прогресс попрёт.
— Компания несколько раз пишет, что это research preview, который может ошибаться и не работать, он не надёжен. И в то же время они очень ждут обратной связи на то, что и где не работает, чтобы в ближайших итерациях это исправить. В настройках можно включить опцию тренировки на ваших запросах и сессиях — я это обязательно сделаю, чтобы именно мои задачи начали решаться лучше.
— Если CUA сталкивается с трудностями или совершает ошибки, то оно может выбраться из ямы за счёт рассуждений и самокоррекции. Если это не удастся — система возвращает управление пользователю с запросом на конкретные действия.
— Оператор обучен заранее просить пользователя взять на себя выполнение задач, требующих захода в систему по данным учётной записи, ввода платежных данных или решения CAPTCHA (да-да, теперь мы решаем капчу за машин).
— Пользователи могут удалить все данные о просмотренных сайтах и выйти из всех аккаунтов одним щелчком мыши в разделе «Конфиденциальность» в настройках. Прошлые запросы к Operator также можно быстро удалить. Отсюда следует, что в Operator будут храниться ваши учётные и платежные данные (ну, как в обычном браузере, то есть сессия делится между разными запросами), и что не нужно логиниться каждый раз или добавлять свою карточку.
— OpenAI делает большой упор на безопасность системы и устойчивость к атакам. Весь процесс мониторится отдельной моделью, которая может вызвать остановку выполнения, если что-то не так. Кроме этого, некоторые подозрительные ситуации будут отправляться на ручную проверку, по результатам которой атаку/проблему можно пометить и быстро добавить в мониторинг (в течение нескольких часов).
— На агентских бенчмарках, как писал выше, результаты везде лучше всех других, включая Anthropic Computer Use. Про бенчмарки напишу отдельные посты на выходных, чтобы понять, что мы оцениваем.
— Что интересно, так это примеры, выложенные в блоге. Очень рекомендую с ними ознакомиться, чтобы понять, как формировать свои запросы (там есть примеры неудачных запросов, когда одна и та же задача то решается в 10/10 раз, то 3/10 если не так попросить или что-то не уточнить). В этих примерах по 150-450 шагов (!) выполнения задач. Правда каждый шаг очень маленький — сюда входят даже скриншоты страницы и нажатия кнопки Enter для отправки запроса.
— Чем больше шагов, тем больше качество (что показывает способность модели к выходу из тупиков). OpenAI гордо пишут «We observed test-time scaling», а там где scaling, там и приросты не за горами.
— Один из примеров запросов, который мне понравился и наподобие которого я буду закидывать сам: «Help me export charts, graph or other images from docx files received in email "Lecture Document" in Notes folder and upload these png files to the figures/ folder in Google Drive for later use (use numbers to name them)»
Выходя за рамки специализированных API-интерфейсов, удобных для работы с агентами, CUA может адаптироваться к любой доступной компьютерной среде, по-настоящему охватывая длинный хвост вариантов использования, которые остаются вне досягаемости большинства ИИ-моделей на данный момент.
Operator недоступен в EC. Пока только в США на плане Pro.
Но.
Через несколько недель обещают добавить в Plus за 20 долларов. Лимиты неизвестны пока.
И тогда же добавить поддержку Operator через APIй же фичи
Но.
Через несколько недель обещают добавить в Plus за 20 долларов. Лимиты неизвестны пока.
И тогда же добавить поддержку Operator через APIй же фичи
И на посошок Сэм нереально расщедрился:
магическую o3-mini дадут пощупать даже бесплатным пользователям.
А пользователями Plus за 20 долларов отвалят конских лимитов на использование o3-mini.
"TONS OF o3-mini USAGE"
@cgevent
магическую o3-mini дадут пощупать даже бесплатным пользователям.
А пользователями Plus за 20 долларов отвалят конских лимитов на использование o3-mini.
"TONS OF o3-mini USAGE"
@cgevent