VILA: On Pre-training for Visual Language Models
NVIDIA. #VLM пониматор картинок и видео с открытым исходным кодом.
Код
Демо
#video2text #image2text
NVIDIA. #VLM пониматор картинок и видео с открытым исходным кодом.
Код
Демо
#video2text #image2text
👍14
4M: Massively Multimodal Masked Modeling
Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.
Код
Демо
#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth
Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.
Код
Демо
#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth
👍8