Нейронавт | Нейросети в творчестве – Telegram

Нейронавт | Нейросети в творчестве

@GreenNeuralRobots

9.43K subscribers

3.65K photos

3.15K videos

40 files

4.11K links

Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

About

Blog

Apps

Platform

Нейронавт | Нейросети в творчестве

9.43K subscribers

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Boximator: Generating Rich and Controllable Motions for Video Synthesis

Ой что делается. Неужели контроль движения на анимации по кратинке! От Bytedance/Tiktok. Можно анимировать столько объектов сколько хочешь.

Кода нет, Демо обещают через 2-3 месяца.

Но. Можно запросить генерацию по почте [email protected]
по прилагаемой инструкции

#image2video

❤5🔥2😱2

1.39K views13:16

Нейронавт | Нейросети в творчестве

World Model on Million-Length Video And Language With RingAttention

Вот вы говорите Gemini, GPT-4. А могут они так?

LWM способнен обрабатывать и понимать длинные текстовые документы и видео длиной более 1 млн лексем.

Выложены 7B модели.

Гитхаб

#llm #vlm #chatbot

🤯7👍5🔥1

1.42K viewsedited 10:11

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Sora

Забудьте все чтобы видели до сих пор по части генерации видео.
OpenAI показали как надо. Еще видны косяки, но это на голову выше всего что было до сих пор

Sora понимает не только текстовый промт, но и то как вещи ведут себя физическом мире.

Sora сейчас в закрытом доступе для ограниченного круга тестеров, художников и журналистов.

Можете попробовать написать Сэму Альтману в твиттер, он генерит видео по запросам

#text2video

❤14🔥11👀5👎1

1.7K views21:46

Нейронавт | Нейросети в творчестве

Сэм Альтман
мы хотели бы показать вам, на что способен Сора, пожалуйста, присылайте описания видео, которые вы хотели бы увидеть, и мы начнем их делать!

DogeDesigner
"Парень, превращающий некоммерческую компанию с открытым исходным кодом в прибыльную компанию с закрытым исходным кодом"

твиттер

#humor

😁40🌚4👍1

1.44K viewsedited 06:24

Нейронавт | Нейросети в творчестве

Media is too big

VIEW IN TELEGRAM

HuggingFace выкатили ноутбуки в gradio

Не колабом единым

- Используйте любую комбинацию текстовых, графических или звуковых моделей в одном пространстве и даже объединяйте модели в цепочку.

- Экспериментируйте с моделями, используя встроенный пользовательский интерфейс ноутбука, который представляет собой знакомый, интуитивно понятный интерфейс для мультимодального взаимодействия.

- Делитесь результатами работы с пространством с друзьями по URL-адресу, которым можно поделиться.

- Загрузите конфигурацию space (подсказки и настройки модели) в виде файла aiconfig JSON и используйте его в своем приложении через AIConfig SDK.

#tools #news

👍7

1.49K views06:51

Нейронавт | Нейросети в творчестве

Stable Cascade

Stability AI выпустили новую модель генерации изображений на основе архитектуры Würstchen
Быстрее и лучше SDXL.
Поддержка Лора, контролнет

Успели уже потестить пока я был в анабиозе? Хвастайтесь в чате

Гитхаб
Колаб
Однокликовый инсталлятор
Расширение для A1111/Forge
Веса

#text2image

👍5🤷‍♂2

1.27K viewsedited 07:03

Нейронавт | Нейросети в творчестве

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

Теперь немного диванных мыслей. И ссылка на новую статью, которая вышла в процессе написания поста.

Если у кого-то есть надежда типа "а мы вот умеем из картинок видео делать, а не только из текста", то нет. Надежды. GPT-V пережует любую картинку на входе, превратит ее промпт, удобрит с помощью GPT-4, сам найдет динамику и предложит вам десяток вариантов операторской работы с этой картинкой (вышла статья - подтвердили эту фичу).

Интересно будет посмотреть на варианты контроля движения кроме текстовых промптов. Судя по Далле3 OpenAI не сильно упираются в продуктовые фичи и всякие контролнеты, так что моушен брашей можно и не дождаться.

Цензура наверняка будет лютой. На видео примерах - никаких людей. Так что у части стартапов затеплилась надежда. Говорящие головы будут жить какое-то время. А дух дипфейка будет жутко пугать OpenAI.

Судя по примерам, в обучении использовалось много синтетики. Типа видео из игровых движков. Поглядите на пролеты камеры, особенно в городских локациях. Это касается некоторых примеров. На других этого нет.

Одна минута of high definition video - это как вообще?. Там где любые видео-генераторы разрывает в клочья после 8 секунд, тут ОДНА МИНУТА.

А еще уже вышла статья. И там примеры за гранью нравственности.

Оно умеет продолжать видео по времени назад и вперед.

"Как и в DALL-E 3, мы также используем GPT для превращения коротких подсказок пользователя в длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora генерировать высококачественные видеоролики, которые точно следуют подсказкам пользователя."

Video-to-video editing

В общем оно умеет все и даже картинки в 2048х2048

Sora is also capable of generating images. We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame. The model can generate images of variable sizes—up to 2048x2048 resolution.
https://openai.com/research/video-generation-models-as-world-simulators

Надо поспать, или это все уже сон?

Video generation models as world simulators

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates…

👍6❤1

942 views07:47

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Пойду запишусь уже в приспешники к роботам.

Видео утащил у Дениса

#sora

🤯9🔥4

1.22K views08:01

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

А знаете что?

Это ж если ты застрял на труднопроходимой миссии, можно будет сгенерить себе видеогайд по прохождению. А можно будет включить ИИ-ассистента который поможет пройти особо ацкого босса

На видео - сгенерированное Sora видео геймплея в майнкрафт

#оффтоп #sora

🔥3🤔3

1.29K viewsedited 10:00

Нейронавт | Нейросети в творчестве

Нейронавт | Нейросети в творчестве

А знаете что? Это ж если ты застрял на труднопроходимой миссии, можно будет сгенерить себе видеогайд по прохождению. А можно будет включить ИИ-ассистента который поможет пройти особо ацкого босса На видео - сгенерированное Sora видео геймплея в майнкрафт…

Профессиональные геймеры смогут делать вид что работают

😁2

1.27K views10:12

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

HeadStudio: Text to Animatable Head Avatarswith 3D Gaussian Splatting

Говорящие головы с мимикой на гауссианах.
Прибитые гвоздями глаза при активной мимике выглядят устрашающе.

Код ждем

#text2video #talkinghead #humanavatar #gaussian

😁4

1.41K views11:19

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Gemini 1.5

Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)

- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных

Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона. Думаю, схитрили, там разрешение видео небольшое

#MoE #multimodal #VLM #assistant

👍5🔥3

1.4K views13:08

Нейронавт | Нейросети в творчестве

Automatic1111 SD Webui Notebooks for Paperspace and Runpod

Не колабом единым. Вот вам блокноты для запуска SD Webui на Paperspace и Runpod

Гитхаб
Инструкция
Реддит

#tools #sd #text2image

🔥3

1.34K views07:00

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Почему про это никто не пишет?
Лет 5-6 назад была у гугла подобная штука,но там можно было менять между собой 4-5 инструментов. А тут свободное редактирование музыки текстовыми указаниями. Можно менять инструменты, жанр, настроение.

Одна беда - негде попробовать.

#music2music #musicediting

❤6

1.34K views07:22

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guidedGenerative Gaussian Splatting

Генерация комплексных 3D сцен на гауссианах

Код ждем

#textto3d #text2scene

👍5

1.36K views07:42

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Magic-Me: Identity-Specific Video Customized Diffusion

Генерация видео с персонализацией.
Угадаете от кого? от ByteDance конечно

Код
Колаб
Демо

#text2video #personalization

👍1😁1

1.52K viewsedited 08:22