Нейронавт | Нейросети в творчестве
9.25K subscribers
3.53K photos
3.05K videos
40 files
4.02K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
HunyuanDiT-v1.2 / HunyuanCaptioner

Новая версия китайского генератора картинок. Лично меня он не впечатляет.
Но выкатили еще и генератор описаний, который может описывать картинки по английски

Репозиторий
Демо HunyuanCaptioner

#text2image #image2text #captioning
👍4
FLUX Prompt Generator

Тут можно генерить/раскрычивать промпты для #Flux по ключевым словам или небольшому промпту.
А можно и обратно, по картинке.

#image2text #captioning #text2text #prompting
🔥15👎1
JoyCaption Alpha One

Обновился инструмент для текстового описания изображений JoyCaption

- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Descriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано

#image2text #captioning
👍62
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами

По бенчмарку MLVU превосходит GPT-4o

Код
Демо

#mllm #vlm #video2text #image2text #3d2text
👍11
Janus

Мультимодальная модель от DeepSeek.
Текст и картинки.

Модель компактная, основана на DeepSeek-LLM-1.3b-base

Гитхаб
Веса на HF

#VLM #assistant #multimodal #text2image #image2text
👍3🔥1
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Новый гибкий кондиционный генератор картинок.
Кроме генерации умеет распознавать, редактировать.
Инпейнтинг, аутпейнтинг, интерполяция, обогащение (деталями???)

А где же подвох подлох, спросите вы.
А вот он:
Претрейны есть для 512*512 и 256*256

В колабе генерит долго: на блок из 4 картинок 256*256 ушло минуты 3 (третья картинка).

На вход подаются номера классов. Текстовый промпт не предусмотрен.
Ну ладно, может он редактировать хорошо будет?

Код
Колаб

#news #text2image #image2image #inpainting #outpainting #imageediting #image2text
🤔41👍1
JoyCaption Alpha 2 - Batch Script

Скрипт для пакетной обработки картинок в JoyCaption.

Для Alpha 2 требуется ~ 22 ГБ видеопамяти.
Для режима Low VRAM требуется ~ 10 ГБ видеопамяти.
Режим Low VRAM работает только в pre-alpha версии

Реддит

#image2text #captioning
👍31
PaliGemma 2

Модель понимания визуальных данных от Google, способная распознавать объекты, эмоции, создавать подробные описания изображений

Уже в Anychat

HF
Kaggle

#VLM #image2text #assistant
4
VideoLLaMA 3

Следующее поколение открытой #VLM

Код
Демо

#image2text #video2text #captioning #assistant
👍6🔥21
Janus-Pro

Мультимодальная авторегрессионная модель от DeepSeek

Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA

Сперва меня картинки не впечатлили, отбраковал новость, потом передумал

Код
Демо

#multimodal #mllm #text2image #image2text
👍4
DeepSeek-VL2-small

DeepSeek решил заспамить нас моделями

DeepSeek-VL2-small - средняя визуально-языковая модель на 2.8B параметров из семейства DeepSeek-VL2, наследника DeepSeek-VL

Построена на базе DeepSeekMoE-16B

Демо

#VLM #assistant #image2text
👏53🔥2
Liquid: Language Models are Scalable and Unified Multi-modal Generators

Единая языковая модель в качестве мультимодального генератора без костылей типа CLIP. В данном случае картинки/текст, 7B параметров

Код
Демо
Веса

#llm #mlm #text2image#image2text #text2text
🔥4👍1
JoyCaption Beta One

Вышла новая бета версия открытой модели для текстового описания изображений

Ключевые функции

• Свободный и открытый: без ограничений, с открытым весом.
• Без цензуры: равный охват SFW и NSFW.
• Разнообразие: широкий охват стилей изображений и содержания.
• Минимальная фильтрация: обучение на больших массивах изображений.

Что нового

• Больше тренировок: 2,4 миллиона обучающих выборок.
• Простой режим: золотая середина между многословными и лаконичными режимами.
• Настройки тегирования Booru: стабилизация и повышение полезности.
• Точность водяных знаков: обновление учебных данных.
• VQA: добавление данных для расширения диапазона инструкций.
• Увеличение количества тегов: поддержка указания списка тегов booru.
• Обучение с подкреплением: устранение проблем с Alpha Two.

Предостережения

• JoyCaption далек от совершенства, возможны сбои.
• Частота сбоев снижена, но все еще высока.
• Некоторые запросы NSFW могут вызывать отказ, но это не намеренно.

Гитхаб
Демо
HF
Civitai

#image2text #captioning #vlm
👍9👌1
BLIP3-o

Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров

Понимает картинки и умеет отвечать на вопросы как минимум

Демо
Код
Веса

#multimodal #image2text #instruct
🔥71
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning

Модель анализирует изображения на уровне пикселей, улавливает мелкие детали и сложные визуальные отношения, которые трудно выразить текстом

Демо
Код - пока только обучение, без инференса, ждем
Веса

#reasoning #assistant #image2text
🔥7👍3😁1
Tar: Unifying Visual Understanding and Generation via Text-Aligned Representations

Генератор-пониматор изображений от команды с участием ByteDnace Seed

Код
Демо - 512/1024

#text2image #image2text #captioning
👍4
Ovis-U1

Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений

- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.

- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.

- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.

Код
Веса
Демо

#vlm #text2image #imageediting #captioning #image2text
👍8🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Describe Anything: Detailed Localized Image and Video Captioning (DAM)

Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео

Код
Демо

#captioning #image2text #video2text
👍11🔥3🤔1
VLM Image Captioning Tool

Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.

Поддерживает большинство VLM провайдеров, в том числе локальные VLM

Видео

#captioning #image2text #vlm
👍53
PyVision: Agentic Vision with Dynamic Tooling

Так, агенты добрались и до визуального понимания.

PyVision — это новая система, которая позволяет моделям машинного обучения работать с изображениями и придумывать собственные инструменты для решения задач. Модель может анализировать картинки, находить на них нужные объекты, измерять их. По сути, учится «видеть» и понимать мир как человек, но с помощью кода и алгоритмов.

Например, создает код на питоне для решения задачи

Работает через API OpenAI, поэтому для работы нужен API ключ OpenAI

Код
Демо

#vlm #agent #image2text
👍7