Метаверсище и ИИще
35K subscribers
4.46K photos
2.58K videos
40 files
5.49K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
Так, у нас опять гонка видеогенераторов.

EasyAnimate от Алибабищенко обновился to версии 5.1!


Опенсорсная модель на 12B параметров, сравнимая Hunyuan-Video, но с поддержкой I2V, V2V и разных управлялок и контролнетов типа Canny/Pose/Trajectory/Camera control.

В новой версии 5.1 с качестве text encoder используется Qwen2 VL, а в качестве sampling method - Flow. Поддерживается двуязычное предсказание на китайском и английском языках. В дополнение к обычным элементам управления, таким как Canny и Pose, он также поддерживает управление траекторией, управление камерой

Надо тестировать срочно! И скачивать 39 ГИГОВ!
Кто-то запустил на 12gb with CPU offloading, но я не верю.

Есть спейс, но он намертво повален, такими как я:
https://huggingface.co/spaces/alibaba-pai/EasyAnimate

ComfyUI (Search EasyAnimate in ComfyUI Manager): https://github.com/aigc-apps/EasyAnimate/blob/main/comfyui/README.md

Code: https://github.com/aigc-apps/EasyAnimate

Models: https://huggingface.co/collections/alibaba-pai/easyanimate-v51-67920469c7e21dde1faab66c

Фарш и веса: https://modelscope.cn/models/PAI/EasyAnimateV5.1-12b-zh-InP

@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Итак, более полная информация из блогпостов:
— Computer-Using Agent (CUA) объединяет возможности обработки изображений GPT-4o и рассуждения модели посредством обучения с подкреплением (Reinforcement Learning); CUA обучен взаимодействовать с графическими пользовательскими интерфейсами — кнопками, меню и текстовыми полями, которые люди видят на экране. Использование RL, как и в случае o1/o3, означает, что как только OpenAI наладят процесс сбора данных для закидывания в обучающий процесс — прогресс попрёт.
— Компания несколько раз пишет, что это research preview, который может ошибаться и не работать, он не надёжен. И в то же время они очень ждут обратной связи на то, что и где не работает, чтобы в ближайших итерациях это исправить. В настройках можно включить опцию тренировки на ваших запросах и сессиях — я это обязательно сделаю, чтобы именно мои задачи начали решаться лучше.
— Если CUA сталкивается с трудностями или совершает ошибки, то оно может выбраться из ямы за счёт рассуждений и самокоррекции. Если это не удастся — система возвращает управление пользователю с запросом на конкретные действия.
— Оператор обучен заранее просить пользователя взять на себя выполнение задач, требующих захода в систему по данным учётной записи, ввода платежных данных или решения CAPTCHA (да-да, теперь мы решаем капчу за машин).
— Пользователи могут удалить все данные о просмотренных сайтах и выйти из всех аккаунтов одним щелчком мыши в разделе «Конфиденциальность» в настройках. Прошлые запросы к Operator также можно быстро удалить. Отсюда следует, что в Operator будут храниться ваши учётные и платежные данные (ну, как в обычном браузере, то есть сессия делится между разными запросами), и что не нужно логиниться каждый раз или добавлять свою карточку.
— OpenAI делает большой упор на безопасность системы и устойчивость к атакам. Весь процесс мониторится отдельной моделью, которая может вызвать остановку выполнения, если что-то не так. Кроме этого, некоторые подозрительные ситуации будут отправляться на ручную проверку, по результатам которой атаку/проблему можно пометить и быстро добавить в мониторинг (в течение нескольких часов).
— На агентских бенчмарках, как писал выше, результаты везде лучше всех других, включая Anthropic Computer Use. Про бенчмарки напишу отдельные посты на выходных, чтобы понять, что мы оцениваем.
— Что интересно, так это примеры, выложенные в блоге. Очень рекомендую с ними ознакомиться, чтобы понять, как формировать свои запросы (там есть примеры неудачных запросов, когда одна и та же задача то решается в 10/10 раз, то 3/10 если не так попросить или что-то не уточнить). В этих примерах по 150-450 шагов (!) выполнения задач. Правда каждый шаг очень маленький — сюда входят даже скриншоты страницы и нажатия кнопки Enter для отправки запроса.
— Чем больше шагов, тем больше качество (что показывает способность модели к выходу из тупиков). OpenAI гордо пишут «We observed test-time scaling», а там где scaling, там и приросты не за горами.
— Один из примеров запросов, который мне понравился и наподобие которого я буду закидывать сам: «Help me export charts, graph or other images from docx files received in email "Lecture Document" in Notes folder and upload these png files to the figures/ folder in Google Drive for later use (use numbers to name them)»

Выходя за рамки специализированных API-интерфейсов, удобных для работы с агентами, CUA может адаптироваться к любой доступной компьютерной среде, по-настоящему охватывая длинный хвост вариантов использования, которые остаются вне досягаемости большинства ИИ-моделей на данный момент.
Operator  недоступен в EC. Пока только в США на плане Pro.
Но.
Через несколько недель обещают добавить в Plus за 20 долларов. Лимиты неизвестны пока.
И тогда же добавить поддержку Operator через APIй же фичи
И на посошок Сэм нереально расщедрился:
магическую o3-mini дадут пощупать даже бесплатным пользователям.

А пользователями Plus за 20 долларов отвалят конских лимитов на использование o3-mini.

"TONS OF o3-mini USAGE"

@cgevent
EasyAnimate 5.1 похож на новую SOTA в опенсорсном image2video.

Разбавим серьезность момента выпуска Оператора веселыми картинками. На ночь.
Я тут разочаровался в EasyAnimate text2video, и это понятно, ацкая цензура, в отличие от Хунька.

Но божечки, в image2video, особенно в анимационных стилях, он делает очень хорошую картинку и прорисовку деталей.
Видео короткие, но тени, хайлайты, контуры - отлично.
На фоториле тоже отжигает, причем кушает NSFW и даже кое-что понимает про процесс анимации безобразия.
Поглядите на исходную картинку и видео рыжей бестии, промпт внизу. Анимацию спрятал под спойлер, а совсем непотребство скину в коменты. Еще раз - он хорош!

Локальный запуск непрост. Благо KazanPlova пофиксил teacache (добавил поддержку teacache в ноду), пуллреквест лежит вот тут:
https://github.com/aigc-apps/EasyAnimate/pull/183

Стало 60 сек на видео (A100) и 20Гиг прожорливости.

Очень ждем ответочки-весов image2video от Хунька.

Промпт для рыжей бестии:
A captivating scene featuring a character with long, flowing blue hair sitting in a softly lit room. The character's skin is smooth and slightly glistening, with a few droplets of water trailing down their chest. The room is simple, with wooden elements and a muted color palette, creating a serene and intimate atmosphere. The character's pose is relaxed, with their hands gently resting on their body, emphasizing a sense of calm and introspection. The lighting is soft, casting gentle shadows that enhance the contours of the character's form. The background remains static, with a shallow depth of field that keeps the focus on the character while subtly blurring the surroundings, adding a cinematic touch to the scene.

Blurring, mutation, deformation, distortion, dark and solid, comics.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Browser use

Интересная ответка OpenAI Оператору из опенсорса.

Хотя вам все равно понадобится ключ OpenAI (или от другой модели).

Поглядите примеры на сайте. В принципе это Selenium плюс chatGPT:
https://github.com/browser-use/browser-use

Также поглядите на вот такой проект - веб-морда для ВСЕГО. Для любых генераторов всего:
https://github.com/AK391/ai-gradio

А я щас принесу самое главное использование Оператора.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI: AGI близко, Оператор скоро заменит кожаных бездельников.

Кожаные: дайте два! мы будем генерить в два раза больше мемов (за 2х200 долларов в месяц)!

Сэм: доктор, у меня суицидальные мысли.

@cgevent
Так, утечки из Grok 3.

Поглядите, что он вытворяет и как уделывает o1-pro и DeepSeek (тут корректно написать на определенном виде задач).

Смотрите, есть промпт:
"write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square"

Там где два квадрата на видео, это о1-Pro (слева, плохо) и DeepSeek R1 (справа, лучше)

Там где один квадрат на видео - это Grok 3

Но когда Grok 3 смог заменить квадрат на Тессеракт, у меня челюсть упала на твиттор.

Как?

P/S/ Тессеракт — четырёхмерный гиперкуб, аналог обычного трёхмерного куба в четырёхмерном пространстве. У него 24 грани, 32 ребра и 16 вершин. Одно из назначений — способ визуализации концепции времени в четырехмерной вселенной.

@cgevent
Media is too big
VIEW IN TELEGRAM
THIS IS NOT A TOOL TO BOOK FLIGHTS!!!

Ух, я нашел чувака в твитторе, которого, как и меня, страшно бесит, что все рассуждения про Оператор начинаются с заказа столиков в ресторане и билетов на самолет.

Что он делает:
Говорит Оператору пойти на сайт Google AI Studio (цинично раз)
Просит Оператора попросить Гемини написать инструкции\техзад. по созданию сайта (цинично два)
Оператор идет на Replit и делает сайт.

В идеале, если бы сайт был по заказу этих гребаных столиков.

THIS IS NOT A TOOL TO BOOK FLIGHTS!!!
THIS IS AN INTELLIGENT AGENT THAT CAN DO COGNITIVE WORK FOR HUMANS IN THE INFORMATION LAYER OF HUMANITY THAT WE CALL THE WEB.

Бро!

P.S. Я также вижу много примеров связки Operator и Replit в твитторе. Есть жизнь за пределами букинга услуг.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Вы будете смеяться, но у нас новый генератор видео (и картинок).

И это не китайские интерны, это .. китайские слоняры!

Алибаба сделала свой Qwen Chat и теперь там не только тексты, но и генерация картинок (как в chatGPT, Mistral LeChat, Gemini), более того, там же есть генерация видосов!

Бесплатно (лимиты пока не знаю), логин Гуглом возможен, генерит видео в 5 секунд.

Более того, там несколько моделей, среди которых опенсорсная Qwen2.5-1M с контекстом в Один Миллион токенов.

Мне все это отчаянно нравится - если каждый чат будет иметь теперь картинко- и видео-гегератор, я только за!

Ждём ответок от остальных.

https://chat.qwenlm.ai/

Пойду помучаю с телефона, не дают в выходные подетокситься.

@cgevent
Нет, Qwen-генератор до семи считать не умеет, как и все остальные.

Create image of flower with exactly seven petals

https://chat.qwenlm.ai/c/0957e41a-9686-4997-a3b1-4ab8c3fa5bf1

А видео-генератор похоже перегружен:

Qwen2.5-Plus7:54 pm
Uh-oh! There was an issue connecting to qwen-plus-latest. data_inspection_failed

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Видеогенерация в Qwen Chat занимает чуть меньше времени, чем бесконечность. Еле дождался.

Надо, конечно, колдовать с промптами...

@cgevent