Ovis-U1
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
👍8🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Describe Anything: Detailed Localized Image and Video Captioning (DAM)
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
👍11🔥3🤔1
VLM Image Captioning Tool
Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.
Поддерживает большинство VLM провайдеров, в том числе локальные VLM
Видео
#captioning #image2text #vlm
Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.
Поддерживает большинство VLM провайдеров, в том числе локальные VLM
Видео
#captioning #image2text #vlm
GitHub
GitHub - victorchall/vlm-caption: Multiturn VLM Bulk captioning using your api service
Multiturn VLM Bulk captioning using your api service - victorchall/vlm-caption
👍5❤3
This media is not supported in your browser
VIEW IN TELEGRAM
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
Базовая визуально-языковая модель понимания 3D сцен/
Умеет описывать сцены, отвечать на вопросы о них, планировать действия в виртуальном пространстве
Код
Веса
#vlm #3d #3dvlm #assistant #captioning
Базовая визуально-языковая модель понимания 3D сцен/
Умеет описывать сцены, отвечать на вопросы о них, планировать действия в виртуальном пространстве
Код
Веса
#vlm #3d #3dvlm #assistant #captioning
🔥8👍1