Нейронавт | Нейросети в творчестве

HunyuanDiT-v1.2 / HunyuanCaptioner

Новая версия китайского генератора картинок. Лично меня он не впечатляет.
Но выкатили еще и генератор описаний, который может описывать картинки по английски

Репозиторий
Демо HunyuanCaptioner

#text2image #image2text #captioning

👍4

1.66K views08:29

FLUX Prompt Generator

Тут можно генерить/раскрычивать промпты для #Flux по ключевым словам или небольшому промпту.
А можно и обратно, по картинке.

#image2text #captioning #text2text #prompting

🔥15👎1

2.36K views07:30

Нейронавт | Нейросети в творчестве

JoyCaption Alpha One

Обновился инструмент для текстового описания изображений JoyCaption

- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Descriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано

#image2text #captioning

👍6❤2

1.93K viewsedited 08:03

Нейронавт | Нейросети в творчестве

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами

По бенчмарку MLVU превосходит GPT-4o

Код
Демо

#mllm #vlm #video2text #image2text #3d2text

👍11

1.57K viewsedited 07:01

Нейронавт | Нейросети в творчестве

Janus

Мультимодальная модель от DeepSeek.
Текст и картинки.

Модель компактная, основана на DeepSeek-LLM-1.3b-base

Гитхаб
Веса на HF

#VLM #assistant #multimodal #text2image #image2text

👍3🔥1

1.57K views15:30

Нейронавт | Нейросети в творчестве

BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Новый гибкий кондиционный генератор картинок.
Кроме генерации умеет распознавать, редактировать.
Инпейнтинг, аутпейнтинг, интерполяция, обогащение (деталями???)

А где же ~~подвох~~ подлох, спросите вы.
А вот он:
Претрейны есть для 512*512 и 256*256

В колабе генерит долго: на блок из 4 картинок 256*256 ушло минуты 3 (третья картинка).

На вход подаются номера классов. Текстовый промпт не предусмотрен.
Ну ладно, может он редактировать хорошо будет?

Код
Колаб

#news #text2image #image2image #inpainting #outpainting #imageediting #image2text

🤔4❤1👍1

1.74K views15:03

Нейронавт | Нейросети в творчестве

JoyCaption Alpha 2 - Batch Script

Скрипт для пакетной обработки картинок в JoyCaption.

Для Alpha 2 требуется ~ 22 ГБ видеопамяти.
Для режима Low VRAM требуется ~ 10 ГБ видеопамяти.
Режим Low VRAM работает только в pre-alpha версии

Реддит

#image2text #captioning

👍3❤1

1.75K views05:03

Нейронавт | Нейросети в творчестве

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

PaliGemma 2

Модель понимания визуальных данных от Google, способная распознавать объекты, эмоции, создавать подробные описания изображений

Уже в Anychat

HF
Kaggle

#VLM #image2text #assistant

❤4

1.71K views09:54

Нейронавт | Нейросети в творчестве

VideoLLaMA 3

Следующее поколение открытой #VLM

Код
Демо

#image2text #video2text #captioning #assistant

👍6🔥2❤1

1.62K viewsedited 11:14

Нейронавт | Нейросети в творчестве

Janus-Pro

Мультимодальная авторегрессионная модель от DeepSeek

Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA

Сперва меня картинки не впечатлили, отбраковал новость, потом передумал

Код
Демо

#multimodal #mllm #text2image #image2text

👍4

1.9K viewsedited 08:02

Нейронавт | Нейросети в творчестве

DeepSeek-VL2-small

DeepSeek решил заспамить нас моделями

DeepSeek-VL2-small - средняя визуально-языковая модель на 2.8B параметров из семейства DeepSeek-VL2, наследника DeepSeek-VL

Построена на базе DeepSeekMoE-16B

Демо

#VLM #assistant #image2text

👏5❤3🔥2

1.72K views16:11

Нейронавт | Нейросети в творчестве

Liquid: Language Models are Scalable and Unified Multi-modal Generators

Единая языковая модель в качестве мультимодального генератора без костылей типа CLIP. В данном случае картинки/текст, 7B параметров

Код
Демо
Веса

#llm #mlm #text2image#image2text #text2text

🔥4👍1

2.02K views07:33

Нейронавт | Нейросети в творчестве

JoyCaption Beta One

Вышла новая бета версия открытой модели для текстового описания изображений

Ключевые функции

• Свободный и открытый: без ограничений, с открытым весом.
• Без цензуры: равный охват SFW и NSFW.
• Разнообразие: широкий охват стилей изображений и содержания.
• Минимальная фильтрация: обучение на больших массивах изображений.

Что нового

• Больше тренировок: 2,4 миллиона обучающих выборок.
• Простой режим: золотая середина между многословными и лаконичными режимами.
• Настройки тегирования Booru: стабилизация и повышение полезности.
• Точность водяных знаков: обновление учебных данных.
• VQA: добавление данных для расширения диапазона инструкций.
• Увеличение количества тегов: поддержка указания списка тегов booru.
• Обучение с подкреплением: устранение проблем с Alpha Two.

Предостережения

• JoyCaption далек от совершенства, возможны сбои.
• Частота сбоев снижена, но все еще высока.
• Некоторые запросы NSFW могут вызывать отказ, но это не намеренно.

Гитхаб
Демо
HF
Civitai

#image2text #captioning #vlm

👍9👌1

1.92K views13:46

Нейронавт | Нейросети в творчестве

BLIP3-o

Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров

Понимает картинки и умеет отвечать на вопросы как минимум

Демо
Код
Веса

#multimodal #image2text #instruct

🔥7❤1

1.58K views13:16

Нейронавт | Нейросети в творчестве

Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning

Модель анализирует изображения на уровне пикселей, улавливает мелкие детали и сложные визуальные отношения, которые трудно выразить текстом

Демо
Код - пока только обучение, без инференса, ждем
Веса

#reasoning #assistant #image2text

🔥7👍3😁1

1.74K views08:03

Нейронавт | Нейросети в творчестве

Tar: Unifying Visual Understanding and Generation via Text-Aligned Representations

Генератор-пониматор изображений от команды с участием ByteDnace Seed

Код
Демо - 512/1024

#text2image #image2text #captioning

👍4

1.58K views06:32

Нейронавт | Нейросети в творчестве

Ovis-U1

Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений

- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.

- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.

- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.

Код
Веса
Демо

#vlm #text2image #imageediting #captioning #image2text

👍8🔥1🤔1

1.77K views15:38

Нейронавт | Нейросети в творчестве

3:21

This media is not supported in your browser

VIEW IN TELEGRAM

Describe Anything: Detailed Localized Image and Video Captioning (DAM)

Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео

Код
Демо

#captioning #image2text #video2text

👍11🔥3🤔1

1.8K views10:13

Нейронавт | Нейросети в творчестве

VLM Image Captioning Tool

Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.

Поддерживает большинство VLM провайдеров, в том числе локальные VLM

Видео

#captioning #image2text #vlm

GitHub

GitHub - victorchall/vlm-caption: Multiturn VLM Bulk captioning using your api service

Multiturn VLM Bulk captioning using your api service - victorchall/vlm-caption

👍5❤3

1.71K views10:13

Нейронавт | Нейросети в творчестве

PyVision: Agentic Vision with Dynamic Tooling

Так, агенты добрались и до визуального понимания.

PyVision — это новая система, которая позволяет моделям машинного обучения работать с изображениями и придумывать собственные инструменты для решения задач. Модель может анализировать картинки, находить на них нужные объекты, измерять их. По сути, учится «видеть» и понимать мир как человек, но с помощью кода и алгоритмов.

Например, создает код на питоне для решения задачи

Работает через API OpenAI, поэтому для работы нужен API ключ OpenAI

Код
Демо

#vlm #agent #image2text

👍7

1.64K viewsedited 06:29

About

Blog

Apps

Platform