Forwarded from Machinelearning
LLaMA-Mesh - метод, разработанный NVIDIA Labs, позволяющий генерировать 3D-модели с помощью текстовых инструкций, используя LLM. В отличие от других методов, LLaMA-Mesh представляет координаты вершин и определения граней 3D-сеток в виде простого текста, что позволяет напрямую интегрировать их с LLM без расширения словаря, минимизируя дополнительные затраты на обучение и позволяя использовать знания, которые уже имеют LLM.
Метод основан на файнтюне LLaMA-3.1-8B-Instruct на специальном наборе данных., который состоит из пар "текст-3D" и интерактивных диалогов, содержащих текст и 3D-модели.
В результате этого обучения, LLaMA-Mesh получает способность генерировать высококачественные 3D-сетки с различной топологией, сопоставимые по качеству с моделями, обученными с нуля, при этом сохраняя языковые способности, обеспечивая понимание сложных инструкций и ведения контекстуально-зависимых диалогов.
Оценка LLaMA-Mesh проводилась на качественных и количественных экспериментах.
Результаты качественных тестов демонстрируют высокую точность, качество и разнообразие сгенерированных 3D-моделей, а также сохраненные языковые возможности модели.
Количественные тесты в бенчмарках MMLU, PIQA, HellaSwag и GSM8K подтвердили сохранение языковых способностей, сравнимые с фундаментальными моделями LLaMA.
⚠️ Код и предварительно обученные веса обещают опубликовать в ближайшее время.
@ai_machinelearning_big_data
#AI #ML #LLM #3DGen #LlamaMesh #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM