Нейронавт | Нейросети в творчестве

GPT4V-Image-Captioner

Расширение A1111, инструмент для описания изображений на основе LLM
поддерживает GPT-4-vision, Claude 3 API, cogVLM, Qwen-VL(Alibaba Cloud), Moondream

#image2text

👍10

1.68K views07:03

Нейронавт | Нейросети в творчестве

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

VILA: On Pre-training for Visual Language Models

NVIDIA. #VLM пониматор картинок и видео с открытым исходным кодом.

Код
Демо

#video2text #image2text

👍14

1.74K views07:51

Нейронавт | Нейросети в творчестве

4M: Massively Multimodal Masked Modeling

Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.

Код
Демо

#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth

👍8

1.64K views08:33

Нейронавт | Нейросети в творчестве

HunyuanDiT-v1.2 / HunyuanCaptioner

Новая версия китайского генератора картинок. Лично меня он не впечатляет.
Но выкатили еще и генератор описаний, который может описывать картинки по английски

Репозиторий
Демо HunyuanCaptioner

#text2image #image2text #captioning

👍4

1.66K views08:29

Нейронавт | Нейросети в творчестве

FLUX Prompt Generator

Тут можно генерить/раскрычивать промпты для #Flux по ключевым словам или небольшому промпту.
А можно и обратно, по картинке.

#image2text #captioning #text2text #prompting

🔥15👎1

2.37K views07:30

Нейронавт | Нейросети в творчестве

JoyCaption Alpha One

Обновился инструмент для текстового описания изображений JoyCaption

- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Descriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано

#image2text #captioning

👍6❤2

1.94K viewsedited 08:03

Нейронавт | Нейросети в творчестве

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами

По бенчмарку MLVU превосходит GPT-4o

Код
Демо

#mllm #vlm #video2text #image2text #3d2text

👍11

1.57K viewsedited 07:01

Нейронавт | Нейросети в творчестве

Janus

Мультимодальная модель от DeepSeek.
Текст и картинки.

Модель компактная, основана на DeepSeek-LLM-1.3b-base

Гитхаб
Веса на HF

#VLM #assistant #multimodal #text2image #image2text

👍3🔥1

1.57K views15:30

Нейронавт | Нейросети в творчестве

BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Новый гибкий кондиционный генератор картинок.
Кроме генерации умеет распознавать, редактировать.
Инпейнтинг, аутпейнтинг, интерполяция, обогащение (деталями???)

А где же ~~подвох~~ подлох, спросите вы.
А вот он:
Претрейны есть для 512*512 и 256*256

В колабе генерит долго: на блок из 4 картинок 256*256 ушло минуты 3 (третья картинка).

На вход подаются номера классов. Текстовый промпт не предусмотрен.
Ну ладно, может он редактировать хорошо будет?

Код
Колаб

#news #text2image #image2image #inpainting #outpainting #imageediting #image2text

🤔4❤1👍1

1.75K views15:03

Нейронавт | Нейросети в творчестве

JoyCaption Alpha 2 - Batch Script

Скрипт для пакетной обработки картинок в JoyCaption.

Для Alpha 2 требуется ~ 22 ГБ видеопамяти.
Для режима Low VRAM требуется ~ 10 ГБ видеопамяти.
Режим Low VRAM работает только в pre-alpha версии

Реддит

#image2text #captioning

👍3❤1

1.75K views05:03

About

Blog

Apps

Platform