Метаверсище и ИИще

Видеогенераторы потихоньку тырят новые фичи друг у друга и у image-генераторов.

Но вот эта вот Minimax Subject Reference выглядит чуть убойнее, чем у других.

Лора по одной фотке. Без цензуры. Хорошее попадание.

Ибо обучено именно на лицах, и насколько я знаю, на мишках, мышках и котиках работать не будет.

Пара читов, для тех, кто будет пробовать:
- чем качественнее фотки, тем лучше
- чем подробнее промпты, тем лучше

Поглядите примеры, и снова вспомните, где мы были год назад.

Мне нравится бьюти стилист(ка), тем что конец бьютиблоггерам, Крыгину в каждый дом.

И конечно умопомрачительный Tahta Ular // Serpent's Throne от великолепного Дана Прадана

Эта отвязанная трейлер-панк-история с крокодилом, змеями и дифчонками в духе Страх и Ненависть в Азии нравится мне сильно больше, чем скафандры от Dor Brothers.
Оцените жестоко-хороший монтаж, динамику движений (Минимакс хорош) и нейрокавер от Udio.

Ещё раз: на входе одна фотка и ваше умение вязать лыко промпты. И Минимакс.
Поглядите 3, 4, 5й ролики, все поймёте

@cgevent

8.0K viewsSergey Tsyptsyn ️️, 10:10

Метаверсище и ИИще

На этой неделе OpenAI готовится выпустить "Оператора"

Новую фичу ChatGPT, которая будет выполнять действия от имени пользователей в их браузерах.
Если вкратце:
- Оператор сам предлагает промпты
- Пользователи могут сохранять/обмениваться заданиями
- Пока недоступно по API

Если вдлинце:
OpenAI готовится выпустить на этой неделе новую функцию ChatGPT, которая позволит автоматизировать сложные задачи, обычно выполняемые через веб-браузер, такие как бронирование столиков в ресторанах или планирование поездок. Функция под названием "Оператор" предлагает пользователям различные категории задач, такие как обеды и мероприятия, доставка, покупки и путешествия, а также предлагаемые промпты в каждой категории. Когда пользователь вводит промпт, в chatGPT открывается миниатюрный экран, на котором отображается браузер и действия, выполняемые агентом Operator.
Агент также будет задавать уточняющие вопросы, например, о времени и количестве человек для заказа столика в ресторане.

Пользователи ChatGPT также смогут контролировать экран во время работы Operator, а также сохранять задания Operator и делиться ими с другими пользователями.

Маркетплейс Агентов? (попытка номер 2?)

В настоящее время Operator не работает с почтой Gmail, но позволяет пользователям заходить на другие сайты и оставаться под своим логином в разных сессиях.

https://www.theinformation.com/briefings/openai-preps-operator-release-for-this-week

P.S. Меня одного бесит, что ВСЕ примеры работы агентов ВСЕГДА начинаются с заказа столиков в ресторане или авиабилетов?

@cgevent

The Information

OpenAI Preps ‘Operator’ Release For This Week

OpenAI is preparing to release a new ChatGPT feature this week that will automate complex tasks typically done through the Web browser, such as making restaurant reservations or planning trips, according to a person with direct knowledge of the plans.

…

9.1K viewsSergey Tsyptsyn ️️, edited 17:10

Метаверсище и ИИще

0:29

This media is not supported in your browser

This media is not supported in your browser

VIEW IN TELEGRAM

Ничего себе, а ответочка на Оператора из опенсорса (ТикТока) прилетела уже сегодня!

"Мы непосредственно воспринимаем изображение на экране, применяем процессы рассуждения и автономно генерируем правильные действия. Более того, мы может учиться на предыдущем опыте, итеративно улучшая свою работу за счет использования обратной связи с окружением."

А теперь внимание:
У них есть два способа генерирования следующего действия - один "интуитивный" (S1) и один "рассуждающий" (CoT) (S2).

S1 выигрывает на внутридоменных задачах, но S2 работает лучше внедоменных.

Все по Канеману - думай медленно, решай быстро. Под задачу.

Вот тут гитхаб: https://github.com/bytedance/UI-TARS-desktop
Тут фарш и модели: https://huggingface.co/bytedance-research/UI-TARS-7B-SFT

Тут рекомендуемый к просмотру собственный твиттор: https://x.com/UI_TARS

@cgevent

8.8K viewsSergey Tsyptsyn ️️, 17:30

Метаверсище и ИИще

OpenAI Operator потихоньку пошел в народ, у которого есть подписка за 200 долларов.

Можно подглядеть URL на скрине.

А Антропик тем временем подсуетился и сделал бесплатный курс по использовании своего Computer use. Это когда с помощью Клода можно управлять курсором, нажимать кнопки и вбивать текст. Autohotkey на стероидах и ориентированный больше на гиков.

Держите ссылку:
Building toward Computer Use with Anthropic

@cgevent

11.4K viewsSergey Tsyptsyn ️️, 10:05

Метаверсище и ИИще

Forwarded from Нейронавт | Нейросети в творчестве