Метаверсище и ИИще
37K subscribers
4.67K photos
2.89K videos
40 files
5.74K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
Browser use

Интересная ответка OpenAI Оператору из опенсорса.

Хотя вам все равно понадобится ключ OpenAI (или от другой модели).

Поглядите примеры на сайте. В принципе это Selenium плюс chatGPT:
https://github.com/browser-use/browser-use

Также поглядите на вот такой проект - веб-морда для ВСЕГО. Для любых генераторов всего:
https://github.com/AK391/ai-gradio

А я щас принесу самое главное использование Оператора.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI: AGI близко, Оператор скоро заменит кожаных бездельников.

Кожаные: дайте два! мы будем генерить в два раза больше мемов (за 2х200 долларов в месяц)!

Сэм: доктор, у меня суицидальные мысли.

@cgevent
Так, утечки из Grok 3.

Поглядите, что он вытворяет и как уделывает o1-pro и DeepSeek (тут корректно написать на определенном виде задач).

Смотрите, есть промпт:
"write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square"

Там где два квадрата на видео, это о1-Pro (слева, плохо) и DeepSeek R1 (справа, лучше)

Там где один квадрат на видео - это Grok 3

Но когда Grok 3 смог заменить квадрат на Тессеракт, у меня челюсть упала на твиттор.

Как?

P/S/ Тессеракт — четырёхмерный гиперкуб, аналог обычного трёхмерного куба в четырёхмерном пространстве. У него 24 грани, 32 ребра и 16 вершин. Одно из назначений — способ визуализации концепции времени в четырехмерной вселенной.

@cgevent
Media is too big
VIEW IN TELEGRAM
THIS IS NOT A TOOL TO BOOK FLIGHTS!!!

Ух, я нашел чувака в твитторе, которого, как и меня, страшно бесит, что все рассуждения про Оператор начинаются с заказа столиков в ресторане и билетов на самолет.

Что он делает:
Говорит Оператору пойти на сайт Google AI Studio (цинично раз)
Просит Оператора попросить Гемини написать инструкции\техзад. по созданию сайта (цинично два)
Оператор идет на Replit и делает сайт.

В идеале, если бы сайт был по заказу этих гребаных столиков.

THIS IS NOT A TOOL TO BOOK FLIGHTS!!!
THIS IS AN INTELLIGENT AGENT THAT CAN DO COGNITIVE WORK FOR HUMANS IN THE INFORMATION LAYER OF HUMANITY THAT WE CALL THE WEB.

Бро!

P.S. Я также вижу много примеров связки Operator и Replit в твитторе. Есть жизнь за пределами букинга услуг.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Вы будете смеяться, но у нас новый генератор видео (и картинок).

И это не китайские интерны, это .. китайские слоняры!

Алибаба сделала свой Qwen Chat и теперь там не только тексты, но и генерация картинок (как в chatGPT, Mistral LeChat, Gemini), более того, там же есть генерация видосов!

Бесплатно (лимиты пока не знаю), логин Гуглом возможен, генерит видео в 5 секунд.

Более того, там несколько моделей, среди которых опенсорсная Qwen2.5-1M с контекстом в Один Миллион токенов.

Мне все это отчаянно нравится - если каждый чат будет иметь теперь картинко- и видео-гегератор, я только за!

Ждём ответок от остальных.

https://chat.qwenlm.ai/

Пойду помучаю с телефона, не дают в выходные подетокситься.

@cgevent
Нет, Qwen-генератор до семи считать не умеет, как и все остальные.

Create image of flower with exactly seven petals

https://chat.qwenlm.ai/c/0957e41a-9686-4997-a3b1-4ab8c3fa5bf1

А видео-генератор похоже перегружен:

Qwen2.5-Plus7:54 pm
Uh-oh! There was an issue connecting to qwen-plus-latest. data_inspection_failed

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Видеогенерация в Qwen Chat занимает чуть меньше времени, чем бесконечность. Еле дождался.

Надо, конечно, колдовать с промптами...

@cgevent
Мне кажется Kling просто троллит Pika.

Сначала он перепёр их Ingredients в виде Elements, а сейчас добавил пару вирусных, но бесполезных эффектов, которыми Пика пыталась взорвать Твиттор. Взорвала на неделю где-то.

Я не могу объяснить выпуск всего двух абсолютно бесполезных эффектов (МочиМочи и БумБум) ничем, кроме желанием подколоть Пику (смешно вышло).

А вот то, что они завезли Image Reference (как face и как subject) в свой генератор картинок KOLORS 1.5 - хорошая новость, не бросают продукт.

Как использовать, тут:
https://klingai.com/release-notes

@cgevent
Рубрика крутые подписчики.

Но немного в ином разрезе. Ко мне\нам в чат ломятся сотни афтараф ИИ-каналов со ссылками на перевес. Добавишь такого в чат - и лови поток ссылоr на его посты в его канале. Это у них даже как-то называется по умному.

Вычищаю помаленьку, но имейте в виду, что попасть в чат таким партизанам теперь сложно.

Но есть у нас в чате очень крутые спецы, которые успевают оттестировать все, что шевелится, не пиарят себя и подгоняют очень полезную информацию.

Щас процитирую Ксению Галушкину по 3Д-генераторам:

Rodin самое нормальное качество из всех 3д-нейронок, но платно.
Meshy красивая галерея на сайте, но мощный черри-пик, в реальности повторить такое получается раз в 10 попыток, Rodin намного стабильнее по качеству за свои деньги.

Trellis Comfy или HunYuan3d 2.0 Comfy бесплатные локальные, но финальное качество не вытянут. Если по фото, то плохо получается, но в Hunyan 3d можно запихнуть качественную ИИ-картинку, сгенеренную под 3д-рендер, тогда прожует, а дотекстурить руками.

Сетка и развёртка во всех четырех лажа, пока везде доделка руками. Можно чуть лучше сетку получить из Meshy и чуть лучше развёртку из Rodin, но в моделях есть дыры или лишние полигоны и тд, так что эти улучшения не спасают пока от ручной доделки.


Совпадает с моим мнением и дополняет его тестами.

А вот держите еще пару мегагодных постов Ксении про тестирование четырех 3Д-генераторов:
https://yangx.top/Aironically/411

И обзор Hunyuan 3d 2.0 на разных модельках:
https://yangx.top/Aironically/413

@cgevent
Camera Control with T2V 01 - Director Model

Помните про
273 фичи?

Итак, видеогенераторы продолжают наваливать новые фичи в попытках сымитировать процесс съемки видео.

Основная точка приложения сил - управление камерой. Для этого даже тренируют отдельные модели.

Скоро в Минимаксе раскатают такую новую модель с новой фичей:

Camera Control with T2V 01 - Director Model для полного(?) управления камерой при генерации видео.
Из интересного - плавные переходы: несколько движений для достижения кинематографического лука.

T2V 01 Director Model это text2video модель, которая позволит вам "направлять камеру, чтобы она делала то, что вы хотите, для этого используется естественный язык, это также очень полезно для создания плавных переходов".
Для этого в окне запроса нужно будет выбрать модель, нажать на камеру, выбрать работу с несколькими камерами. См видео в шапке.

Сорс и промпты тут.


@cgevent