HunyuanDiT-v1.2 / HunyuanCaptioner
Новая версия китайского генератора картинок. Лично меня он не впечатляет.
Но выкатили еще и генератор описаний, который может описывать картинки по английски
Репозиторий
Демо HunyuanCaptioner
#text2image #image2text #captioning
Новая версия китайского генератора картинок. Лично меня он не впечатляет.
Но выкатили еще и генератор описаний, который может описывать картинки по английски
Репозиторий
Демо HunyuanCaptioner
#text2image #image2text #captioning
👍4
FLUX Prompt Generator
Тут можно генерить/раскрычивать промпты для #Flux по ключевым словам или небольшому промпту.
А можно и обратно, по картинке.
#image2text #captioning #text2text #prompting
Тут можно генерить/раскрычивать промпты для #Flux по ключевым словам или небольшому промпту.
А можно и обратно, по картинке.
#image2text #captioning #text2text #prompting
🔥15👎1
JoyCaption Alpha One
Обновился инструмент для текстового описания изображений JoyCaption
- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Descriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано
#image2text #captioning
Обновился инструмент для текстового описания изображений JoyCaption
- расширен набор данных
- контроль длины описания
- выбор тона текста формальный/неформальный
- выбор типа описания. Descriptive - на чисто естественном языке. Training Prompt - сочетания естественного языка, фрагментов предложений и тегов booru - имитация промптов для SD. rng-tags - только теги booru, работает не очень хорошо, не рекомендовано
#image2text #captioning
👍6❤2
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
👍11
Janus
Мультимодальная модель от DeepSeek.
Текст и картинки.
Модель компактная, основана на DeepSeek-LLM-1.3b-base
Гитхаб
Веса на HF
#VLM #assistant #multimodal #text2image #image2text
Мультимодальная модель от DeepSeek.
Текст и картинки.
Модель компактная, основана на DeepSeek-LLM-1.3b-base
Гитхаб
Веса на HF
#VLM #assistant #multimodal #text2image #image2text
👍3🔥1
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities
Новый гибкий кондиционный генератор картинок.
Кроме генерации умеет распознавать, редактировать.
Инпейнтинг, аутпейнтинг, интерполяция, обогащение (деталями???)
А где жеподвох подлох, спросите вы.
А вот он:
Претрейны есть для 512*512 и 256*256
В колабе генерит долго: на блок из 4 картинок 256*256 ушло минуты 3 (третья картинка).
На вход подаются номера классов. Текстовый промпт не предусмотрен.
Ну ладно, может он редактировать хорошо будет?
Код
Колаб
#news #text2image #image2image #inpainting #outpainting #imageediting #image2text
Новый гибкий кондиционный генератор картинок.
Кроме генерации умеет распознавать, редактировать.
Инпейнтинг, аутпейнтинг, интерполяция, обогащение (деталями???)
А где же
А вот он:
Претрейны есть для 512*512 и 256*256
В колабе генерит долго: на блок из 4 картинок 256*256 ушло минуты 3 (третья картинка).
На вход подаются номера классов. Текстовый промпт не предусмотрен.
Ну ладно, может он редактировать хорошо будет?
Код
Колаб
#news #text2image #image2image #inpainting #outpainting #imageediting #image2text
🤔4❤1👍1
JoyCaption Alpha 2 - Batch Script
Скрипт для пакетной обработки картинок в JoyCaption.
Для Alpha 2 требуется ~ 22 ГБ видеопамяти.
Для режима Low VRAM требуется ~ 10 ГБ видеопамяти.
Режим Low VRAM работает только в pre-alpha версии
Реддит
#image2text #captioning
Скрипт для пакетной обработки картинок в JoyCaption.
Для Alpha 2 требуется ~ 22 ГБ видеопамяти.
Для режима Low VRAM требуется ~ 10 ГБ видеопамяти.
Режим Low VRAM работает только в pre-alpha версии
Реддит
#image2text #captioning
👍3❤1
PaliGemma 2
Модель понимания визуальных данных от Google, способная распознавать объекты, эмоции, создавать подробные описания изображений
Уже в Anychat
HF
Kaggle
#VLM #image2text #assistant
Модель понимания визуальных данных от Google, способная распознавать объекты, эмоции, создавать подробные описания изображений
Уже в Anychat
HF
Kaggle
#VLM #image2text #assistant
❤4
Janus-Pro
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
👍4
DeepSeek-VL2-small
DeepSeek решил заспамить нас моделями
DeepSeek-VL2-small - средняя визуально-языковая модель на 2.8B параметров из семейства DeepSeek-VL2, наследника DeepSeek-VL
Построена на базе DeepSeekMoE-16B
Демо
#VLM #assistant #image2text
DeepSeek решил заспамить нас моделями
DeepSeek-VL2-small - средняя визуально-языковая модель на 2.8B параметров из семейства DeepSeek-VL2, наследника DeepSeek-VL
Построена на базе DeepSeekMoE-16B
Демо
#VLM #assistant #image2text
👏5❤3🔥2
Liquid: Language Models are Scalable and Unified Multi-modal Generators
Единая языковая модель в качестве мультимодального генератора без костылей типа CLIP. В данном случае картинки/текст, 7B параметров
Код
Демо
Веса
#llm #mlm #text2image#image2text #text2text
Единая языковая модель в качестве мультимодального генератора без костылей типа CLIP. В данном случае картинки/текст, 7B параметров
Код
Демо
Веса
#llm #mlm #text2image#image2text #text2text
🔥4👍1
JoyCaption Beta One
Вышла новая бета версия открытой модели для текстового описания изображений
Ключевые функции
• Свободный и открытый: без ограничений, с открытым весом.
• Без цензуры: равный охват SFW и NSFW.
• Разнообразие: широкий охват стилей изображений и содержания.
• Минимальная фильтрация: обучение на больших массивах изображений.
Что нового
• Больше тренировок: 2,4 миллиона обучающих выборок.
• Простой режим: золотая середина между многословными и лаконичными режимами.
• Настройки тегирования Booru: стабилизация и повышение полезности.
• Точность водяных знаков: обновление учебных данных.
• VQA: добавление данных для расширения диапазона инструкций.
• Увеличение количества тегов: поддержка указания списка тегов booru.
• Обучение с подкреплением: устранение проблем с Alpha Two.
Предостережения
• JoyCaption далек от совершенства, возможны сбои.
• Частота сбоев снижена, но все еще высока.
• Некоторые запросы NSFW могут вызывать отказ, но это не намеренно.
Гитхаб
Демо
HF
Civitai
#image2text #captioning #vlm
Вышла новая бета версия открытой модели для текстового описания изображений
Ключевые функции
• Свободный и открытый: без ограничений, с открытым весом.
• Без цензуры: равный охват SFW и NSFW.
• Разнообразие: широкий охват стилей изображений и содержания.
• Минимальная фильтрация: обучение на больших массивах изображений.
Что нового
• Больше тренировок: 2,4 миллиона обучающих выборок.
• Простой режим: золотая середина между многословными и лаконичными режимами.
• Настройки тегирования Booru: стабилизация и повышение полезности.
• Точность водяных знаков: обновление учебных данных.
• VQA: добавление данных для расширения диапазона инструкций.
• Увеличение количества тегов: поддержка указания списка тегов booru.
• Обучение с подкреплением: устранение проблем с Alpha Two.
Предостережения
• JoyCaption далек от совершенства, возможны сбои.
• Частота сбоев снижена, но все еще высока.
• Некоторые запросы NSFW могут вызывать отказ, но это не намеренно.
Гитхаб
Демо
HF
Civitai
#image2text #captioning #vlm
👍9👌1
BLIP3-o
Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров
Понимает картинки и умеет отвечать на вопросы как минимум
Демо
Код
Веса
#multimodal #image2text #instruct
Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров
Понимает картинки и умеет отвечать на вопросы как минимум
Демо
Код
Веса
#multimodal #image2text #instruct
🔥7❤1
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
Модель анализирует изображения на уровне пикселей, улавливает мелкие детали и сложные визуальные отношения, которые трудно выразить текстом
Демо
Код - пока только обучение, без инференса, ждем
Веса
#reasoning #assistant #image2text
Модель анализирует изображения на уровне пикселей, улавливает мелкие детали и сложные визуальные отношения, которые трудно выразить текстом
Демо
Код - пока только обучение, без инференса, ждем
Веса
#reasoning #assistant #image2text
🔥7👍3😁1
Tar: Unifying Visual Understanding and Generation via Text-Aligned Representations
Генератор-пониматор изображений от команды с участием ByteDnace Seed
Код
Демо - 512/1024
#text2image #image2text #captioning
Генератор-пониматор изображений от команды с участием ByteDnace Seed
Код
Демо - 512/1024
#text2image #image2text #captioning
👍4
Ovis-U1
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
👍8🔥1🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Describe Anything: Detailed Localized Image and Video Captioning (DAM)
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
Модель от NVIDIA генерирует подробные описания для заданных областей на изображениях и видео
Код
Демо
#captioning #image2text #video2text
👍11🔥3🤔1
VLM Image Captioning Tool
Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.
Поддерживает большинство VLM провайдеров, в том числе локальные VLM
Видео
#captioning #image2text #vlm
Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.
Поддерживает большинство VLM провайдеров, в том числе локальные VLM
Видео
#captioning #image2text #vlm
GitHub
GitHub - victorchall/vlm-caption: Multiturn VLM Bulk captioning using your api service
Multiturn VLM Bulk captioning using your api service - victorchall/vlm-caption
👍5❤3
PyVision: Agentic Vision with Dynamic Tooling
Так, агенты добрались и до визуального понимания.
PyVision — это новая система, которая позволяет моделям машинного обучения работать с изображениями и придумывать собственные инструменты для решения задач. Модель может анализировать картинки, находить на них нужные объекты, измерять их. По сути, учится «видеть» и понимать мир как человек, но с помощью кода и алгоритмов.
Например, создает код на питоне для решения задачи
Работает через API OpenAI, поэтому для работы нужен API ключ OpenAI
Код
Демо
#vlm #agent #image2text
Так, агенты добрались и до визуального понимания.
PyVision — это новая система, которая позволяет моделям машинного обучения работать с изображениями и придумывать собственные инструменты для решения задач. Модель может анализировать картинки, находить на них нужные объекты, измерять их. По сути, учится «видеть» и понимать мир как человек, но с помощью кода и алгоритмов.
Например, создает код на питоне для решения задачи
Работает через API OpenAI, поэтому для работы нужен API ключ OpenAI
Код
Демо
#vlm #agent #image2text
👍7