Нейронавт | Нейросети в творчестве

Ovis-U1

Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений

- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.

- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.

- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.

Код
Веса
Демо

#vlm #text2image #imageediting #captioning #image2text

👍8🔥1🤔1

1.79K views15:38

3:21

This media is not supported in your browser

VIEW IN TELEGRAM

Describe Anything: Detailed Localized Image and Video Captioning (DAM)

Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео

Код
Демо

#captioning #image2text #video2text

👍11🔥3🤔1

1.82K views10:13

Нейронавт | Нейросети в творчестве

VLM Image Captioning Tool

Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.

Поддерживает большинство VLM провайдеров, в том числе локальные VLM

Видео

#captioning #image2text #vlm

GitHub

GitHub - victorchall/vlm-caption: Multiturn VLM Bulk captioning using your api service

Multiturn VLM Bulk captioning using your api service - victorchall/vlm-caption

👍5❤3

1.73K views10:13

Нейронавт | Нейросети в творчестве

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

Базовая визуально-языковая модель понимания 3D сцен/
Умеет описывать сцены, отвечать на вопросы о них, планировать действия в виртуальном пространстве

Код
Веса

#vlm #3d #3dvlm #assistant #captioning

🔥8👍1

1.93K views12:16

About

Blog

Apps

Platform