Нейронавт | Нейросети в творчестве
9.44K subscribers
3.66K photos
3.16K videos
40 files
4.12K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
GPT4V-Image-Captioner

Расширение A1111, инструмент для описания изображений на основе LLM
поддерживает GPT-4-vision, Claude 3 API, cogVLM, Qwen-VL(Alibaba Cloud), Moondream

#image2text
👍10
VILA: On Pre-training for Visual Language Models

NVIDIA. #VLM пониматор картинок и видео с открытым исходным кодом.

Код
Демо

#video2text #image2text
👍14
4M: Massively Multimodal Masked Modeling

Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.

Код
Демо

#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth
👍8
HunyuanDiT-v1.2 / HunyuanCaptioner

Новая версия китайского генератора картинок. Лично меня он не впечатляет.
Но выкатили еще и генератор описаний, который может описывать картинки по английски

Репозиторий
Демо HunyuanCaptioner

#text2image #image2text #captioning
👍4
FLUX Prompt Generator

Тут можно генерить/раскрычивать промпты для #Flux по ключевым словам или небольшому промпту.
А можно и обратно, по картинке.

#image2text #captioning #text2text #prompting
🔥15👎1
JoyCaption Alpha One

Обновился инструмент для текстового описания изображений JoyCaption

- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Descriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано

#image2text #captioning
👍62
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами

По бенчмарку MLVU превосходит GPT-4o

Код
Демо

#mllm #vlm #video2text #image2text #3d2text
👍11
Janus

Мультимодальная модель от DeepSeek.
Текст и картинки.

Модель компактная, основана на DeepSeek-LLM-1.3b-base

Гитхаб
Веса на HF

#VLM #assistant #multimodal #text2image #image2text
👍3🔥1
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Новый гибкий кондиционный генератор картинок.
Кроме генерации умеет распознавать, редактировать.
Инпейнтинг, аутпейнтинг, интерполяция, обогащение (деталями???)

А где же подвох подлох, спросите вы.
А вот он:
Претрейны есть для 512*512 и 256*256

В колабе генерит долго: на блок из 4 картинок 256*256 ушло минуты 3 (третья картинка).

На вход подаются номера классов. Текстовый промпт не предусмотрен.
Ну ладно, может он редактировать хорошо будет?

Код
Колаб

#news #text2image #image2image #inpainting #outpainting #imageediting #image2text
🤔41👍1
JoyCaption Alpha 2 - Batch Script

Скрипт для пакетной обработки картинок в JoyCaption.

Для Alpha 2 требуется ~ 22 ГБ видеопамяти.
Для режима Low VRAM требуется ~ 10 ГБ видеопамяти.
Режим Low VRAM работает только в pre-alpha версии

Реддит

#image2text #captioning
👍31