Forwarded from Machinelearning
TRELLIS - модель для создания высококачественных 3D-объектов на основе текстового промпта или изображения с помощью унифицированного представления Structured LATent (SLAT), которое декодирует данные в форматы: Radiance Fields, 3D-гауссианы и полигональные сетки.
SLAT обладает универсальностью, используя комбинацию из разреженной 3D-сетки и плотных визуальных признаков, извлеченных моделью DINOv2 из входного изображения.
TRELLIS использует модифицированные rectified flow transformers, адаптированные для работы с SLAT. Обучение набора моделей TRELLIS, размерами до 2 млрд. параметров, выполнялось на датасете из 500 тыс. разнообразных 3D-объектов.
Пока в открытый доступ опубликована только Image-to-3D версия - TRELLIS-image-large с 1.2 млрд. параметров. Остальные вариации модели для генерации 3D по тексту: TRELLIS-text-base (342М), TRELLIS-text-large (1.1В) и TRELLIS-text-xlarge (2В) и код для их трейна будут представлены позже (сроки не указаны).
⚠️ Для локального запуска TRELLIS-image-large рекомендуется NVIDIA GPU с VRAM 16GB или больше.
# Clone repo
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS
# Create conda env and install dependencies
. ./setup.sh --new-env --basic --flash-attn --diffoctreerast --spconv
--mipgaussian --kaolin --nvdiffrast
# Install web demo via Gradio
. ./setup.sh --demo
# Run WebUI
python app.py
@ai_machinelearning_big_data
#AI #ML #ImageTo3D #Trellis #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM