GPT4V-Image-Captioner
Расширение A1111, инструмент для описания изображений на основе LLM
поддерживает GPT-4-vision, Claude 3 API, cogVLM, Qwen-VL(Alibaba Cloud), Moondream
#image2text
Расширение A1111, инструмент для описания изображений на основе LLM
поддерживает GPT-4-vision, Claude 3 API, cogVLM, Qwen-VL(Alibaba Cloud), Moondream
#image2text
👍10
VILA: On Pre-training for Visual Language Models
NVIDIA. #VLM пониматор картинок и видео с открытым исходным кодом.
Код
Демо
#video2text #image2text
NVIDIA. #VLM пониматор картинок и видео с открытым исходным кодом.
Код
Демо
#video2text #image2text
👍14
4M: Massively Multimodal Masked Modeling
Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.
Код
Демо
#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth
Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.
Код
Демо
#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth
👍8
HunyuanDiT-v1.2 / HunyuanCaptioner
Новая версия китайского генератора картинок. Лично меня он не впечатляет.
Но выкатили еще и генератор описаний, который может описывать картинки по английски
Репозиторий
Демо HunyuanCaptioner
#text2image #image2text #captioning
Новая версия китайского генератора картинок. Лично меня он не впечатляет.
Но выкатили еще и генератор описаний, который может описывать картинки по английски
Репозиторий
Демо HunyuanCaptioner
#text2image #image2text #captioning
👍4
FLUX Prompt Generator
Тут можно генерить/раскрычивать промпты для #Flux по ключевым словам или небольшому промпту.
А можно и обратно, по картинке.
#image2text #captioning #text2text #prompting
Тут можно генерить/раскрычивать промпты для #Flux по ключевым словам или небольшому промпту.
А можно и обратно, по картинке.
#image2text #captioning #text2text #prompting
🔥15👎1
JoyCaption Alpha One
Обновился инструмент для текстового описания изображений JoyCaption
- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Descriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано
#image2text #captioning
Обновился инструмент для текстового описания изображений JoyCaption
- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Descriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано
#image2text #captioning
👍6❤2
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
👍11
Janus
Мультимодальная модель от DeepSeek.
Текст и картинки.
Модель компактная, основана на DeepSeek-LLM-1.3b-base
Гитхаб
Веса на HF
#VLM #assistant #multimodal #text2image #image2text
Мультимодальная модель от DeepSeek.
Текст и картинки.
Модель компактная, основана на DeepSeek-LLM-1.3b-base
Гитхаб
Веса на HF
#VLM #assistant #multimodal #text2image #image2text
👍3🔥1
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities
Новый гибкий кондиционный генератор картинок.
Кроме генерации умеет распознавать, редактировать.
Инпейнтинг, аутпейнтинг, интерполяция, обогащение (деталями???)
А где жеподвох подлох, спросите вы.
А вот он:
Претрейны есть для 512*512 и 256*256
В колабе генерит долго: на блок из 4 картинок 256*256 ушло минуты 3 (третья картинка).
На вход подаются номера классов. Текстовый промпт не предусмотрен.
Ну ладно, может он редактировать хорошо будет?
Код
Колаб
#news #text2image #image2image #inpainting #outpainting #imageediting #image2text
Новый гибкий кондиционный генератор картинок.
Кроме генерации умеет распознавать, редактировать.
Инпейнтинг, аутпейнтинг, интерполяция, обогащение (деталями???)
А где же
А вот он:
Претрейны есть для 512*512 и 256*256
В колабе генерит долго: на блок из 4 картинок 256*256 ушло минуты 3 (третья картинка).
На вход подаются номера классов. Текстовый промпт не предусмотрен.
Ну ладно, может он редактировать хорошо будет?
Код
Колаб
#news #text2image #image2image #inpainting #outpainting #imageediting #image2text
🤔4❤1👍1
JoyCaption Alpha 2 - Batch Script
Скрипт для пакетной обработки картинок в JoyCaption.
Для Alpha 2 требуется ~ 22 ГБ видеопамяти.
Для режима Low VRAM требуется ~ 10 ГБ видеопамяти.
Режим Low VRAM работает только в pre-alpha версии
Реддит
#image2text #captioning
Скрипт для пакетной обработки картинок в JoyCaption.
Для Alpha 2 требуется ~ 22 ГБ видеопамяти.
Для режима Low VRAM требуется ~ 10 ГБ видеопамяти.
Режим Low VRAM работает только в pre-alpha версии
Реддит
#image2text #captioning
👍3❤1