Boximator: Generating Rich and Controllable Motions for Video Synthesis
Ой что делается. Неужели контроль движения на анимации по кратинке! От Bytedance/Tiktok. Можно анимировать столько объектов сколько хочешь.
Кода нет, Демо обещают через 2-3 месяца.
Но. Можно запросить генерацию по почте
по прилагаемой инструкции
#image2video
Ой что делается. Неужели контроль движения на анимации по кратинке! От Bytedance/Tiktok. Можно анимировать столько объектов сколько хочешь.
Кода нет, Демо обещают через 2-3 месяца.
Но. Можно запросить генерацию по почте
[email protected]
по прилагаемой инструкции
#image2video
❤5🔥2😱2
World Model on Million-Length Video And Language With RingAttention
Вот вы говорите Gemini, GPT-4. А могут они так?
LWM способнен обрабатывать и понимать длинные текстовые документы и видео длиной более 1 млн лексем.
Выложены 7B модели.
Гитхаб
#llm #vlm #chatbot
Вот вы говорите Gemini, GPT-4. А могут они так?
LWM способнен обрабатывать и понимать длинные текстовые документы и видео длиной более 1 млн лексем.
Выложены 7B модели.
Гитхаб
#llm #vlm #chatbot
🤯7👍5🔥1
Sora
Забудьте все чтобы видели до сих пор по части генерации видео.
OpenAI показали как надо. Еще видны косяки, но это на голову выше всего что было до сих пор
Sora понимает не только текстовый промт, но и то как вещи ведут себя физическом мире.
Sora сейчас в закрытом доступе для ограниченного круга тестеров, художников и журналистов.
Можете попробовать написать Сэму Альтману в твиттер, он генерит видео по запросам
#text2video
Забудьте все чтобы видели до сих пор по части генерации видео.
OpenAI показали как надо. Еще видны косяки, но это на голову выше всего что было до сих пор
Sora понимает не только текстовый промт, но и то как вещи ведут себя физическом мире.
Sora сейчас в закрытом доступе для ограниченного круга тестеров, художников и журналистов.
Можете попробовать написать Сэму Альтману в твиттер, он генерит видео по запросам
#text2video
❤14🔥11👀5👎1
Сэм Альтман
мы хотели бы показать вам, на что способен Сора, пожалуйста, присылайте описания видео, которые вы хотели бы увидеть, и мы начнем их делать!
DogeDesigner
"Парень, превращающий некоммерческую компанию с открытым исходным кодом в прибыльную компанию с закрытым исходным кодом"
твиттер
#humor
мы хотели бы показать вам, на что способен Сора, пожалуйста, присылайте описания видео, которые вы хотели бы увидеть, и мы начнем их делать!
DogeDesigner
"Парень, превращающий некоммерческую компанию с открытым исходным кодом в прибыльную компанию с закрытым исходным кодом"
твиттер
#humor
😁40🌚4👍1
Media is too big
VIEW IN TELEGRAM
HuggingFace выкатили ноутбуки в gradio
Не колабом единым
- Используйте любую комбинацию текстовых, графических или звуковых моделей в одном пространстве и даже объединяйте модели в цепочку.
- Экспериментируйте с моделями, используя встроенный пользовательский интерфейс ноутбука, который представляет собой знакомый, интуитивно понятный интерфейс для мультимодального взаимодействия.
- Делитесь результатами работы с пространством с друзьями по URL-адресу, которым можно поделиться.
- Загрузите конфигурацию space (подсказки и настройки модели) в виде файла aiconfig JSON и используйте его в своем приложении через AIConfig SDK.
#tools #news
Не колабом единым
- Используйте любую комбинацию текстовых, графических или звуковых моделей в одном пространстве и даже объединяйте модели в цепочку.
- Экспериментируйте с моделями, используя встроенный пользовательский интерфейс ноутбука, который представляет собой знакомый, интуитивно понятный интерфейс для мультимодального взаимодействия.
- Делитесь результатами работы с пространством с друзьями по URL-адресу, которым можно поделиться.
- Загрузите конфигурацию space (подсказки и настройки модели) в виде файла aiconfig JSON и используйте его в своем приложении через AIConfig SDK.
#tools #news
👍7
Stable Cascade
Stability AI выпустили новую модель генерации изображений на основе архитектуры Würstchen
Быстрее и лучше SDXL.
Поддержка Лора, контролнет
Успели уже потестить пока я был в анабиозе? Хвастайтесь в чате
Гитхаб
Колаб
Однокликовый инсталлятор
Расширение для A1111/Forge
Веса
#text2image
Stability AI выпустили новую модель генерации изображений на основе архитектуры Würstchen
Быстрее и лучше SDXL.
Поддержка Лора, контролнет
Успели уже потестить пока я был в анабиозе? Хвастайтесь в чате
Гитхаб
Колаб
Однокликовый инсталлятор
Расширение для A1111/Forge
Веса
#text2image
👍5🤷♂2
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Теперь немного диванных мыслей. И ссылка на новую статью, которая вышла в процессе написания поста.
Если у кого-то есть надежда типа "а мы вот умеем из картинок видео делать, а не только из текста", то нет. Надежды. GPT-V пережует любую картинку на входе, превратит ее промпт, удобрит с помощью GPT-4, сам найдет динамику и предложит вам десяток вариантов операторской работы с этой картинкой (вышла статья - подтвердили эту фичу).
Интересно будет посмотреть на варианты контроля движения кроме текстовых промптов. Судя по Далле3 OpenAI не сильно упираются в продуктовые фичи и всякие контролнеты, так что моушен брашей можно и не дождаться.
Цензура наверняка будет лютой. На видео примерах - никаких людей. Так что у части стартапов затеплилась надежда. Говорящие головы будут жить какое-то время. А дух дипфейка будет жутко пугать OpenAI.
Судя по примерам, в обучении использовалось много синтетики. Типа видео из игровых движков. Поглядите на пролеты камеры, особенно в городских локациях. Это касается некоторых примеров. На других этого нет.
Одна минута of high definition video - это как вообще?. Там где любые видео-генераторы разрывает в клочья после 8 секунд, тут ОДНА МИНУТА.
А еще уже вышла статья. И там примеры за гранью нравственности.
Оно умеет продолжать видео по времени назад и вперед.
"Как и в DALL-E 3, мы также используем GPT для превращения коротких подсказок пользователя в длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora генерировать высококачественные видеоролики, которые точно следуют подсказкам пользователя."
Video-to-video editing
В общем оно умеет все и даже картинки в 2048х2048
Sora is also capable of generating images. We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame. The model can generate images of variable sizes—up to 2048x2048 resolution.
https://openai.com/research/video-generation-models-as-world-simulators
Надо поспать, или это все уже сон?
Если у кого-то есть надежда типа "а мы вот умеем из картинок видео делать, а не только из текста", то нет. Надежды. GPT-V пережует любую картинку на входе, превратит ее промпт, удобрит с помощью GPT-4, сам найдет динамику и предложит вам десяток вариантов операторской работы с этой картинкой (вышла статья - подтвердили эту фичу).
Интересно будет посмотреть на варианты контроля движения кроме текстовых промптов. Судя по Далле3 OpenAI не сильно упираются в продуктовые фичи и всякие контролнеты, так что моушен брашей можно и не дождаться.
Цензура наверняка будет лютой. На видео примерах - никаких людей. Так что у части стартапов затеплилась надежда. Говорящие головы будут жить какое-то время. А дух дипфейка будет жутко пугать OpenAI.
Судя по примерам, в обучении использовалось много синтетики. Типа видео из игровых движков. Поглядите на пролеты камеры, особенно в городских локациях. Это касается некоторых примеров. На других этого нет.
Одна минута of high definition video - это как вообще?. Там где любые видео-генераторы разрывает в клочья после 8 секунд, тут ОДНА МИНУТА.
А еще уже вышла статья. И там примеры за гранью нравственности.
Оно умеет продолжать видео по времени назад и вперед.
"Как и в DALL-E 3, мы также используем GPT для превращения коротких подсказок пользователя в длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora генерировать высококачественные видеоролики, которые точно следуют подсказкам пользователя."
Video-to-video editing
В общем оно умеет все и даже картинки в 2048х2048
Sora is also capable of generating images. We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame. The model can generate images of variable sizes—up to 2048x2048 resolution.
https://openai.com/research/video-generation-models-as-world-simulators
Надо поспать, или это все уже сон?
Openai
Video generation models as world simulators
We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates…
👍6❤1
🤯9🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
А знаете что?
Это ж если ты застрял на труднопроходимой миссии, можно будет сгенерить себе видеогайд по прохождению. А можно будет включить ИИ-ассистента который поможет пройти особо ацкого босса
На видео - сгенерированное Sora видео геймплея в майнкрафт
#оффтоп #sora
Это ж если ты застрял на труднопроходимой миссии, можно будет сгенерить себе видеогайд по прохождению. А можно будет включить ИИ-ассистента который поможет пройти особо ацкого босса
На видео - сгенерированное Sora видео геймплея в майнкрафт
#оффтоп #sora
🔥3🤔3
Нейронавт | Нейросети в творчестве
А знаете что? Это ж если ты застрял на труднопроходимой миссии, можно будет сгенерить себе видеогайд по прохождению. А можно будет включить ИИ-ассистента который поможет пройти особо ацкого босса На видео - сгенерированное Sora видео геймплея в майнкрафт…
Профессиональные геймеры смогут делать вид что работают
😁2
This media is not supported in your browser
VIEW IN TELEGRAM
HeadStudio: Text to Animatable Head Avatarswith 3D Gaussian Splatting
Говорящие головы с мимикой на гауссианах.
Прибитые гвоздями глаза при активной мимике выглядят устрашающе.
Код ждем
#text2video #talkinghead #humanavatar #gaussian
Говорящие головы с мимикой на гауссианах.
Прибитые гвоздями глаза при активной мимике выглядят устрашающе.
Код ждем
#text2video #talkinghead #humanavatar #gaussian
😁4
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 1.5
Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)
- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных
Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона.Думаю, схитрили, там разрешение видео небольшое
#MoE #multimodal #VLM #assistant
Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)
- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных
Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона.
#MoE #multimodal #VLM #assistant
👍5🔥3
Automatic1111 SD Webui Notebooks for Paperspace and Runpod
Не колабом единым. Вот вам блокноты для запуска SD Webui на Paperspace и Runpod
Гитхаб
Инструкция
Реддит
#tools #sd #text2image
Не колабом единым. Вот вам блокноты для запуска SD Webui на Paperspace и Runpod
Гитхаб
Инструкция
Реддит
#tools #sd #text2image
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models
Почему про это никто не пишет?
Лет 5-6 назад была у гугла подобная штука,но там можно было менять между собой 4-5 инструментов. А тут свободное редактирование музыки текстовыми указаниями. Можно менять инструменты, жанр, настроение.
Одна беда - негде попробовать.
#music2music #musicediting
Почему про это никто не пишет?
Лет 5-6 назад была у гугла подобная штука,но там можно было менять между собой 4-5 инструментов. А тут свободное редактирование музыки текстовыми указаниями. Можно менять инструменты, жанр, настроение.
Одна беда - негде попробовать.
#music2music #musicediting
❤6
This media is not supported in your browser
VIEW IN TELEGRAM
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guidedGenerative Gaussian Splatting
Генерация комплексных 3D сцен на гауссианах
Код ждем
#textto3d #text2scene
Генерация комплексных 3D сцен на гауссианах
Код ждем
#textto3d #text2scene
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Magic-Me: Identity-Specific Video Customized Diffusion
Генерация видео с персонализацией.
Угадаете от кого? отByteDance конечно
Код
Колаб
Демо
#text2video #personalization
Генерация видео с персонализацией.
Угадаете от кого? от
Код
Колаб
Демо
#text2video #personalization
👍1😁1