Нейронавт | Нейросети в творчестве
9.43K subscribers
3.65K photos
3.15K videos
40 files
4.11K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Boximator: Generating Rich and Controllable Motions for Video Synthesis

Ой что делается. Неужели контроль движения на анимации по кратинке! От Bytedance/Tiktok. Можно анимировать столько объектов сколько хочешь.

Кода нет, Демо обещают через 2-3 месяца.

Но. Можно запросить генерацию по почте [email protected]
по прилагаемой инструкции

#image2video
5🔥2😱2
World Model on Million-Length Video And Language With RingAttention

Вот вы говорите Gemini, GPT-4. А могут они так?

LWM способнен обрабатывать и понимать длинные текстовые документы и видео длиной более 1 млн лексем.

Выложены 7B модели.

Гитхаб


#llm #vlm #chatbot
🤯7👍5🔥1
Sora

Забудьте все чтобы видели до сих пор по части генерации видео.
OpenAI показали как надо. Еще видны косяки, но это на голову выше всего что было до сих пор

Sora понимает не только текстовый промт, но и то как вещи ведут себя физическом мире.

Sora сейчас в закрытом доступе для ограниченного круга тестеров, художников и журналистов.

Можете попробовать написать Сэму Альтману в твиттер, он генерит видео по запросам

#text2video
14🔥11👀5👎1
Сэм Альтман
мы хотели бы показать вам, на что способен Сора, пожалуйста, присылайте описания видео, которые вы хотели бы увидеть, и мы начнем их делать!

DogeDesigner
"Парень, превращающий некоммерческую компанию с открытым исходным кодом в прибыльную компанию с закрытым исходным кодом"

твиттер

#humor
😁40🌚4👍1
Media is too big
VIEW IN TELEGRAM
HuggingFace выкатили ноутбуки в gradio

Не колабом единым

- Используйте любую комбинацию текстовых, графических или звуковых моделей в одном пространстве и даже объединяйте модели в цепочку.

- Экспериментируйте с моделями, используя встроенный пользовательский интерфейс ноутбука, который представляет собой знакомый, интуитивно понятный интерфейс для мультимодального взаимодействия.

- Делитесь результатами работы с пространством с друзьями по URL-адресу, которым можно поделиться.

- Загрузите конфигурацию space (подсказки и настройки модели) в виде файла aiconfig JSON и используйте его в своем приложении через AIConfig SDK.

#tools #news
👍7
Stable Cascade

Stability AI выпустили новую модель генерации изображений на основе архитектуры Würstchen
Быстрее и лучше SDXL.
Поддержка Лора, контролнет

Успели уже потестить пока я был в анабиозе? Хвастайтесь в чате

Гитхаб
Колаб
Однокликовый инсталлятор
Расширение для A1111/Forge
Веса

#text2image
👍5🤷‍♂2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Теперь немного диванных мыслей. И ссылка на новую статью, которая вышла в процессе написания поста.

Если у кого-то есть надежда типа "а мы вот умеем из картинок видео делать, а не только из текста", то нет. Надежды. GPT-V пережует любую картинку на входе, превратит ее промпт, удобрит с помощью GPT-4, сам найдет динамику и предложит вам десяток вариантов операторской работы с этой картинкой (вышла статья - подтвердили эту фичу).

Интересно будет посмотреть на варианты контроля движения кроме текстовых промптов. Судя по Далле3 OpenAI не сильно упираются в продуктовые фичи и всякие контролнеты, так что моушен брашей можно и не дождаться.

Цензура наверняка будет лютой. На видео примерах - никаких людей. Так что у части стартапов затеплилась надежда. Говорящие головы будут жить какое-то время. А дух дипфейка будет жутко пугать OpenAI.

Судя по примерам, в обучении использовалось много синтетики. Типа видео из игровых движков. Поглядите на пролеты камеры, особенно в городских локациях. Это касается некоторых примеров. На других этого нет.

Одна минута of high definition video - это как вообще?. Там где любые видео-генераторы разрывает в клочья после 8 секунд, тут ОДНА МИНУТА.

А еще уже вышла статья. И там примеры за гранью нравственности.

Оно умеет продолжать видео по времени назад и вперед.

"Как и в DALL-E 3, мы также используем GPT для превращения коротких подсказок пользователя в длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora генерировать высококачественные видеоролики, которые точно следуют подсказкам пользователя."

Video-to-video editing

В общем оно умеет все и даже картинки в 2048х2048

Sora is also capable of generating images. We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame. The model can generate images of variable sizes—up to 2048x2048 resolution.
https://openai.com/research/video-generation-models-as-world-simulators

Надо поспать, или это все уже сон?
👍61
This media is not supported in your browser
VIEW IN TELEGRAM
А знаете что?

Это ж если ты застрял на труднопроходимой миссии, можно будет сгенерить себе видеогайд по прохождению. А можно будет включить ИИ-ассистента который поможет пройти особо ацкого босса

На видео - сгенерированное Sora видео геймплея в майнкрафт

#оффтоп #sora
🔥3🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
HeadStudio: Text to Animatable Head Avatarswith 3D Gaussian Splatting

Говорящие головы с мимикой на гауссианах.
Прибитые гвоздями глаза при активной мимике выглядят устрашающе.

Код ждем

#text2video #talkinghead #humanavatar #gaussian
😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 1.5

Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)

- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных

Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона. Думаю, схитрили, там разрешение видео небольшое

#MoE #multimodal #VLM #assistant
👍5🔥3
Automatic1111 SD Webui Notebooks for Paperspace and Runpod

Не колабом единым. Вот вам блокноты для запуска SD Webui на Paperspace и Runpod

Гитхаб
Инструкция
Реддит

#tools #sd #text2image
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models

Почему про это никто не пишет?
Лет 5-6 назад была у гугла подобная штука,но там можно было менять между собой 4-5 инструментов. А тут свободное редактирование музыки текстовыми указаниями. Можно менять инструменты, жанр, настроение.

Одна беда - негде попробовать.

#music2music #musicediting
6
This media is not supported in your browser
VIEW IN TELEGRAM
Magic-Me: Identity-Specific Video Customized Diffusion

Генерация видео с персонализацией.
Угадаете от кого? от ByteDance конечно

Код
Колаб
Демо

#text2video #personalization
👍1😁1