Нейронавт | Нейросети в творчестве
9.25K subscribers
3.54K photos
3.05K videos
40 files
4.02K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
Feat2GS: Probing Visual Foundation Models with Gaussian Splatting

Интересная работа, оценка понимания базовыми визуальными моделями объемного мира при помощи гауссовых сплатов

Оценивают рендер новых ракурсов, геометрию, текстуры

При этом, как я понял, Feat2GS и сам умеет воссоздавать сцены на гауссианах, иначе как бы они сравнивали свою модель с InstantSplat

Код
Демо

#gaussian #comparison #shootout #image2scene
👍2
PE3R: Perception-Efficient 3D Reconstruction

Реконструкция 3D сцены по нескольким изображениям.
С поиском по сцене: пишем что нужно найти, и нам выделяют цветом заданный объект

Код
Демо

#image2scene #imageto3d
👍32
Sparse Voxels Rasterization: Real-time High-fidelity Radiance Field Rendering

Очередная работа Nvidia в направлении реконструкции/рендера/растеризации объемных сцен.
Выглядит как, ответ Radiant Foam

SVRaster стремится объединить скорость рендеринга гауссиан с преимуществами воксельных сеток без нейросетей и гауссиан (я правильно прочитал?)

Принцип как в nerf и 3DGS - на вход подаем ограниченный набор ракурсов сцены, на выходе вид с любого ракурса.

Код

#gaussian #rendering #novelview #image2scene #video2scene #realtime
🔥10
This media is not supported in your browser
VIEW IN TELEGRAM
Stable Virtual Camera (Seva): Multi-View Video Generation with 3D Camera Control

Генератор видео по картинке с контролем камеры от Stability AI. На вход от 1 до 32 картинок. Камера идет по заданной пользователем траектории

1.3B параметров

Обещают консисентность вплоть до бесшовного зацикливания если камера возвращается в ту же точку. Причем 1000 кадров как с куста

Код
Демо

#cameracontrol #image2video #image2scene #novelview
🔥8👍41
VGGT: Visual Geometry Grounded Transformer

Реконструкция всех ключевых 3D-атрибутов сцены от Facebookresearch.

На входе одна картинка, набор видов или видео, на выходе - параметры камеры, карты точек, карты глубины и 3D-треки точек, из одного, нескольких или сотен ракурсов.

Полюбуйтесь на Планетный Экспресс, собранный из одного короткого шота. GLB файл в комментариях

Код
Демо

#image2scene #imageto3d #video2scene #videoto3d #image2mesh #tracking #image2camera #video2mesh #video2depth
👍3🔥1
GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors

И еще один похожий инструмент, реконструкция 4D сцены по видео.

C тучей примеров на сайте, с демонстрацией работы (своего?) генератора глубины, с примерами работы по аниме

Кажется, в прошлом месяце такая штука могла бы сэкономить мне неделю на клинапе

Код
Демо

#videoto4d #scenereconstruction #4d #novelview #imageto3d #image2scene #video2scene
3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction

Еще один реконструктор 4D сцены по монокулярному (не стерео) видео. Тоже через карту глубины, а также через карту точек и карту лучей

Код

#videoto4d #scenereconstruction #4d #novelview #imageto3d #image2scene #video2scene
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Krea Stage

У Krea AI опять обновка.
Добавили функцию генерации 3D сцен

#image2scene #imageto3d #text2scene #textto3d
👍112
This media is not supported in your browser
VIEW IN TELEGRAM
LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning

Реконструкция геометрии сцены по изображению.
Хорошо моделирует невидимую на картинке часть геометрии за счет создания послойной карты точек.

На выходе меш и послойная карта глубины

Код
Демо

#imageto3d #image2scene
🔥6
Media is too big
VIEW IN TELEGRAM
TesserAct: Learning 4D Embodied World Models

Модель предсказывает развитие событий в 3D сцене по входному изображению и текстовому промпту, описывающему действие. На выходе видео RGB + глубина и нормали.

За глубину отвечает Marigold, обещают прикрутить NormalCrafter

Код
Веса

#imageto4d #4d #image2video #image2scene #image2normal #image2depth
🔥62
Media is too big
VIEW IN TELEGRAM
HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation

Генерирует панорамные динамичные видео по тексту или по картинке, реконструируя 4D ассеты

Код

#image2scene #text2video #image2video #360 #panorama #4d #textto4d #imageto4d
👍6😱3
Media is too big
VIEW IN TELEGRAM
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image

Cоздает 3D модели по одной картинке с учётом физических взаимодействий и пространственных отношений объектов

В деле замешаны Deemos

Код ждем

#imageto3d #image2scene
👍7🔥3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
LangScene-X

Создает из набора изображений (от двух, но лучше больше) согласованное видео с учетом 3D, а также трёхмерную сцену, карту сегментации и нормали поверхности

В основе - CogVideoX, а также SAM2 и гауссианы

Код

#image2scene #imageto3d #image2normal #image2mask #image2video #gaussian
7🔥2😐2
CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Метод представления (и рендеринга) 3D сцен в виде сжатых токенов светового поля (CLiFT). Метод хорошо сохраняет геометрическую информацию.

На сайте есть сравнение с методами LVSM от Adobe и DepthSplat от Microsoft

Код ждем к 1 августа

#image2scene #rendering #novelview
🔥4👍1
HunyuanWorld-1.0

"Первый опенсорсный генератор 3D миров, полностью совместимый с графическими пайплайнами"


Создает сцены и 360-градусные панорамы по тексту и по картинке.

В основе работы модели - алгоритм представления и генерации 3D-сцен с семантической иерархией.

В интерактивной демке панорамы на сайте проекта при попытке погулять в генерации очень быстро наталкиваешься на границу, за которую не пускают, как будто там не честное 3D, а картинка натянутая на карту глубины. Так что не вижу в чем он тут "первый", разве что в том что опенсорс. Ну да ладно, это первое впечатление.

Предлагают использовать в VR, геймдеве, физической симуляции, задачах с взаимодействием с объектами

Код
Веса
Попробовать - вход через WeChat. Я залогинился, но дальше сайт не прогружается

Спасибо @iNevestenko

#text2world #image2world #text2panorama #image2panorama #360 #text2scene #image2scene #world
👍1021😱1
3D сцены HunyuanWorld 1.0 полностью редактируемые
(ну они так и написали - совместимые с 3D пайплайнами)

Можно попробовать запустить его в Google Colab Pro (нужно 22ГБ VRAM)

Jupiter / Colab

#text2world #image2world #text2panorama #image2panorama #360 #text2scene #image2scene #world
👍7🔥2
Media is too big
VIEW IN TELEGRAM
ScenePainter: Semantically Consistent Perpetual 3D Scene Generation with Concept Relation Alignment

Генератор видео согласованных ракурсов сцены по одному исходному изображению

Выглядит как SD1.5, устаревше, а собака даже кринжово. Предположу что тут есть какие-то технические новшества, которые используют в других раболтах

Авторы использовали наработки WonderJourney, Break-A-Scene, Blended Diffusion, SAM

Код

#image2video #image2scene
👍2🔥1👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Опубликован код метода представления объемных сцен CLIFT

Код

спасибо @Dmitriy_Ru6ts0v

#image2scene #rendering #novelview
👍9🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

Новый подход к плотностной 3D-реконструкции, решает задачу предсказания карт точек с помощью Transformer-модели без энкодера.

На выходе карта точек, карта уверенности в системах координат мира и камеры, положение камеры

На сайте можно интерактивно покрутить несколько примеров

Код

#image2scene #video2scene #3d
7🔥3👍2