🗿 StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image Synthesis
Github: https://github.com/facebookresearch/StyleNeRF
Video: http://jiataogu.me/style_nerf
Paper: https://arxiv.org/abs/2110.08985
Project: http://jiataogu.me/style_nerf/
Dataset: https://github.com/facebookresearch/StyleNeRF#dataset
@ai_machinelearning_big_data
Github: https://github.com/facebookresearch/StyleNeRF
Video: http://jiataogu.me/style_nerf
Paper: https://arxiv.org/abs/2110.08985
Project: http://jiataogu.me/style_nerf/
Dataset: https://github.com/facebookresearch/StyleNeRF#dataset
@ai_machinelearning_big_data
👍15❤3🔥1
New segmentation task -- reasoning segmentation. The task is designed to output a segmentation mask given a complex and implicit query text.
LISA раскрывает новые возможности сегментации мультимодальных LLM и позволяет решать сложные задачи рассуждения на знание реального мира.
ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍7❤2❤🔥1
TrustLLM
— инструмент на Python
для комплексного исследования ответов от LLM. TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.
В этом документе подробно объясняется, как использовать инструмент для оценки эффективности собственных моделей.
pip install trustllm
▪GitHub
▪Arxiv
▪Docs
▪Project
#llm
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥8❤6
🌟 ManiWAV:— обучение роботизированные системы аудио-визуальному самоконтролю.
Исследователи из Stanford и Сolambia University при поддержке Toyota Research Institute разработали метод аудиовизуального обучения роботизированных манипуляторов, который превосходит некоторые альтернативные подходы по контактным операциям и может быть применим к любой релевантной промышленной среде.
https://github.com/real-stanford/maniwav/blob/main/assets/audio_teaser.jpg?raw=true
Для самостоятельного тестирования и применения нужны:
- совместимость с Universal Manipulation Interface (UMI)
- установить микрофоны на целевой манипулятор (рекомендации + модель грипера с держателем)
- загрузить датасет и модель
Доступны режимы тренировки и тестирования ( под ссылками строки кода для выполнения команд)
Тренировка выполняется при помощи CUDA, рекомендованный GPU: NVIDIA GeForce RTX 3090 24 GB, но есть поддержка multi-GPU
🟡 Страница проекта ManiWAV
🟡 Paper
🟡Summary Video
🖥 GitHub
@ai_machinelearning_big_data
Исследователи из Stanford и Сolambia University при поддержке Toyota Research Institute разработали метод аудиовизуального обучения роботизированных манипуляторов, который превосходит некоторые альтернативные подходы по контактным операциям и может быть применим к любой релевантной промышленной среде.
https://github.com/real-stanford/maniwav/blob/main/assets/audio_teaser.jpg?raw=true
Для самостоятельного тестирования и применения нужны:
- совместимость с Universal Manipulation Interface (UMI)
- установить микрофоны на целевой манипулятор (рекомендации + модель грипера с держателем)
- загрузить датасет и модель
Доступны режимы тренировки и тестирования ( под ссылками строки кода для выполнения команд)
Тренировка выполняется при помощи CUDA, рекомендованный GPU: NVIDIA GeForce RTX 3090 24 GB, но есть поддержка multi-GPU
🟡 Страница проекта ManiWAV
🟡 Paper
🟡Summary Video
🖥 GitHub
@ai_machinelearning_big_data
👍27🔥10❤3
При обучении генеративных моделей большую роль в качестве инференса готовых моделей играет датасет обучения.
Одним из неплохих источников может стать MiraData от Tencent — готовый датасет суммарной продолжительностью видео в 16 тысяч часов, предназначенный для обучения моделей генерации текста в видео. Он включает в себя длинные видеоролики (в среднем 72,1 секунды) с высокой интенсивностью движения и подробными структурированными аннотациями (в среднем 318 слов на ролик).
Для оценки качества датасета была даже специально создана система бенчмарков MiraBench из 17 метрик, оценивающих временную согласованность, движения в кадре, качество видео, и другие параметры. Согласно их результатам, MiroData превосходит другие известные датасеты, доступные в открытых источниках , которые в основном состоят из коротких видеороликов с плавающим качеством и короткими описаниями.
🤗 Hugging Face
@ai_machinelearning_big_data
#Text2Video #Dataset #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤9🔥5