Forwarded from Kali Novskaya (Tatiana Shavrina)
This media is not supported in your browser
VIEW IN TELEGRAM
🌸Sora: что нам рассказали 🌸
Добрались руки прочитать внимательно technical report Sora.
🟣 TLDR;
— никаких деталей про данные, но они "internet scale": как минимум упоминаются видеоигры
— почти ничего детального про архитектуру, но много ссылок на статьи по диффузионным трансформерам и основные идеи объяснены ненаучным языком
— очень большое внимание инжинирингу данных, аугментации, составлению синтентических датасетов, инфинитлупов и нарезок
— масштабирование компьюта все еще вытаскивает качество колоссально
С помощью diffusion transformer'а Sora можно
— генерировать видео по тексту (промпту)
— анимировать картинку с промптом
— соединить два видео (inpainting для видео по сути)
🟣 Основные моменты
— Заигрывание с emergent capabilities (опять): за счет масштабирования компьюта и эффективного представления данных в виде токенов и патчей удалось выучить
1) консистентность 3D представления сцен, даже во время движения камеры
2) консистентность объектов в видео на протяжении длительного времени
3) взаимодейтсвие объектов друг с другом.
— Промпты пишутся за вас: затравки, как и в Dalle 3, дописываются и проходят улучшайзинг за вас, то есть, если вы запросите
— Закрытость науки: Статью даже не запарились делать, просто сделали блогпост со сносками на статьи. Могли бы и его не делать уже, в принципе. Видимо, реакция на релиз Matryoshka embeddings подогрела.
Добрались руки прочитать внимательно technical report Sora.
— никаких деталей про данные, но они "internet scale": как минимум упоминаются видеоигры
— почти ничего детального про архитектуру, но много ссылок на статьи по диффузионным трансформерам и основные идеи объяснены ненаучным языком
— очень большое внимание инжинирингу данных, аугментации, составлению синтентических датасетов, инфинитлупов и нарезок
— масштабирование компьюта все еще вытаскивает качество колоссально
С помощью diffusion transformer'а Sora можно
— генерировать видео по тексту (промпту)
— анимировать картинку с промптом
— соединить два видео (inpainting для видео по сути)
— Заигрывание с emergent capabilities (опять): за счет масштабирования компьюта и эффективного представления данных в виде токенов и патчей удалось выучить
1) консистентность 3D представления сцен, даже во время движения камеры
2) консистентность объектов в видео на протяжении длительного времени
3) взаимодейтсвие объектов друг с другом.
— Промпты пишутся за вас: затравки, как и в Dalle 3, дописываются и проходят улучшайзинг за вас, то есть, если вы запросите
"белый котенок"
, на самом деле на вход пойдет "белый котенок sitting inthe sunlight, digital art, highly detailed, 8k"
— что улучшает качество большинства генераций, но ухудшает контроль пользователя над ней.— Закрытость науки: Статью даже не запарились делать, просто сделали блогпост со сносками на статьи. Могли бы и его не делать уже, в принципе. Видимо, реакция на релиз Matryoshka embeddings подогрела.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥2
А теперь совсем #оффтоп
Вы много в чем разбираетесь, а я об этом раньше не думал как-то.
Накидайте рекомендаций по электробритве для сурового мужского лица, а то моя сдохла
#neuronaut_art
Вы много в чем разбираетесь, а я об этом раньше не думал как-то.
Накидайте рекомендаций по электробритве для сурового мужского лица, а то моя сдохла
#neuronaut_art
😁6👎3❤1👍1🔥1
X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model
Адаптер для использования плагинов (Lora, Controlnet) от SD1.5 с апгрейженными моделями (SD 2.1, SDXL)
Код
Туториал (Реддит)
#tools #sd
Адаптер для использования плагинов (Lora, Controlnet) от SD1.5 с апгрейженными моделями (SD 2.1, SDXL)
Код
Туториал (Реддит)
#tools #sd
👍5🔥3
GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering
Лучше чем гауссианы!
По объему модели, скорости и точности.
Обобщенное экспоненциальное разбрызгивание - переведите это кто-нибудь правильно но русский.
Дело в том, что гауссианы плохо справляются с высокочастотными деталями.
GES (Generalized Exponential Splatting) это новое представление объемных сцен на основе обобщенной экспоненциальной функции (GEF)
GEF превосходит гауссианы в отображении резких краев и сокращает необходимость в обширных операциях разбиения.
Ждем в nerfsudio, Luma
Код
Полное скучное видео (15 минут)
#novelview #rendering #news #GES
Лучше чем гауссианы!
По объему модели, скорости и точности.
Обобщенное экспоненциальное разбрызгивание - переведите это кто-нибудь правильно но русский.
Дело в том, что гауссианы плохо справляются с высокочастотными деталями.
GES (Generalized Exponential Splatting) это новое представление объемных сцен на основе обобщенной экспоненциальной функции (GEF)
GEF превосходит гауссианы в отображении резких краев и сокращает необходимость в обширных операциях разбиения.
Ждем в nerfsudio, Luma
Код
Полное скучное видео (15 минут)
#novelview #rendering #news #GES
🔥5
MagicDance: Realistic Human DanceVideo Generation with Motions & Facial Expressions Transfer
Еще один аниматор человеков, с фокусом на тикток-танцах и переносом мимики.
С заявкой на реалистичность. Но или меня глаза обманывают или это выглядит как стопмоушен
Код
Колаб
#image2video #video2motion #video2pose
Еще один аниматор человеков, с фокусом на тикток-танцах и переносом мимики.
С заявкой на реалистичность. Но или меня глаза обманывают или это выглядит как стопмоушен
Код
Колаб
#image2video #video2motion #video2pose
🔥1
Аниматор Owen Fern опубликовал разбор видео, сгенерированного Sora
Полное видео (25 минут)
Утащил с CG дневничка
#reveiw
Полное видео (25 минут)
Утащил с CG дневничка
#reveiw
👍14🤡6
This media is not supported in your browser
VIEW IN TELEGRAM
Обновился генератор 3D объектов Rodin Gen-1
На видео сравнение с предыдущей версией. Авторы претендуют ни много ни мало на роль Sora в 3D. Уже можно
записаться в вейтлист
#tetxtto3D #text2scene #realtime
На видео сравнение с предыдущей версией. Авторы претендуют ни много ни мало на роль Sora в 3D. Уже можно
записаться в вейтлист
#tetxtto3D #text2scene #realtime
🔥12
Control Color: Multimodal Diffusion-Based Interactive Image Colorization
Управляемая колоризация изображений и видео на базе SD
Код ждем
Демо ждем
#colorize #image2image
Управляемая колоризация изображений и видео на базе SD
Код ждем
Демо ждем
#colorize #image2image
🔥7👍1🌚1
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
Десятки гигабайт моделей Controlnet медленно собирают чемоданы для грядущего путешествия в корзину.
FreeControl позволяет так же управлять генерацией изображения, но без дополнительных моделей и дообучения.
Код
#text2image #conditioning
Десятки гигабайт моделей Controlnet медленно собирают чемоданы для грядущего путешествия в корзину.
FreeControl позволяет так же управлять генерацией изображения, но без дополнительных моделей и дообучения.
Код
#text2image #conditioning
🔥9👀2🤔1
SDXL-Lightning
В ByteDance переизобрели #SDXL c очень быстрой генерацией 1024x1024 за несколько шагов
Код и воркфлоу ComfyUI
Демо
#text2image
В ByteDance переизобрели #SDXL c очень быстрой генерацией 1024x1024 за несколько шагов
Код и воркфлоу ComfyUI
Демо
#text2image
👍4