This media is not supported in your browser
VIEW IN TELEGRAM
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning
Пониматор видео, мультимодальный агентный фреймворк, который улучшает понимание видеое за счет имитации человекоподобных процессов, таких как разбиение задач, локализация и проверка моментов, а также синтез ответов. Этот подход решает уникальные проблемы, связанные с рассуждениями, основанными на времени
Код
Демо
HF
#vlm #reasoning
Пониматор видео, мультимодальный агентный фреймворк, который улучшает понимание видеое за счет имитации человекоподобных процессов, таких как разбиение задач, локализация и проверка моментов, а также синтез ответов. Этот подход решает уникальные проблемы, связанные с рассуждениями, основанными на времени
Код
Демо
HF
#vlm #reasoning
👍8
JoyCaption Beta One
Вышла новая бета версия открытой модели для текстового описания изображений
Ключевые функции
• Свободный и открытый: без ограничений, с открытым весом.
• Без цензуры: равный охват SFW и NSFW.
• Разнообразие: широкий охват стилей изображений и содержания.
• Минимальная фильтрация: обучение на больших массивах изображений.
Что нового
• Больше тренировок: 2,4 миллиона обучающих выборок.
• Простой режим: золотая середина между многословными и лаконичными режимами.
• Настройки тегирования Booru: стабилизация и повышение полезности.
• Точность водяных знаков: обновление учебных данных.
• VQA: добавление данных для расширения диапазона инструкций.
• Увеличение количества тегов: поддержка указания списка тегов booru.
• Обучение с подкреплением: устранение проблем с Alpha Two.
Предостережения
• JoyCaption далек от совершенства, возможны сбои.
• Частота сбоев снижена, но все еще высока.
• Некоторые запросы NSFW могут вызывать отказ, но это не намеренно.
Гитхаб
Демо
HF
Civitai
#image2text #captioning #vlm
Вышла новая бета версия открытой модели для текстового описания изображений
Ключевые функции
• Свободный и открытый: без ограничений, с открытым весом.
• Без цензуры: равный охват SFW и NSFW.
• Разнообразие: широкий охват стилей изображений и содержания.
• Минимальная фильтрация: обучение на больших массивах изображений.
Что нового
• Больше тренировок: 2,4 миллиона обучающих выборок.
• Простой режим: золотая середина между многословными и лаконичными режимами.
• Настройки тегирования Booru: стабилизация и повышение полезности.
• Точность водяных знаков: обновление учебных данных.
• VQA: добавление данных для расширения диапазона инструкций.
• Увеличение количества тегов: поддержка указания списка тегов booru.
• Обучение с подкреплением: устранение проблем с Alpha Two.
Предостережения
• JoyCaption далек от совершенства, возможны сбои.
• Частота сбоев снижена, но все еще высока.
• Некоторые запросы NSFW могут вызывать отказ, но это не намеренно.
Гитхаб
Демо
HF
Civitai
#image2text #captioning #vlm
👍9👌1
This media is not supported in your browser
VIEW IN TELEGRAM
Код и веса персонализатора-кастомизатора DreamEngine опубликованы (давно)
Код
Веса
#text2image #vlm #personalization
Код
Веса
#text2image #vlm #personalization
👍6
Ollama
Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.
Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее
Скачать Ollama
#multimodal #VLM #news
Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.
Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее
Скачать Ollama
#multimodal #VLM #news
👍7❤2🤯1
Media is too big
VIEW IN TELEGRAM
Bagel
Конец гегемонии ChatGPT в вайб-редактировании картинок?
Мультимодальная модель от ByteDance
7B активных параметров (всего 14B)
Превосходит Qwen2.5-VL и InternVL-2.5
Задачи от ведения диалога до генерации креативного контента
Режим Think mode показывает рассуждения модели перед ответом
Умеет генерировать, стилизовать, сочетать и редактировать изображения
Попробовать
Веса 30 Гб
Гитхаб
#multimodal #VLM #text2image #imageediting
Конец гегемонии ChatGPT в вайб-редактировании картинок?
Мультимодальная модель от ByteDance
7B активных параметров (всего 14B)
Превосходит Qwen2.5-VL и InternVL-2.5
Задачи от ведения диалога до генерации креативного контента
Режим Think mode показывает рассуждения модели перед ответом
Умеет генерировать, стилизовать, сочетать и редактировать изображения
Попробовать
Веса 30 Гб
Гитхаб
#multimodal #VLM #text2image #imageediting
🔥15👍3👎2🤔1👀1
QuickVideo
Ускорение понимания визуально-языковыми моделями длинных видео за счёт параллельного декодирования видео, эффективного предварительного заполнения памяти и совмещения декодирования с анализом, что позволяет добиться рилтайма
Код
#VLM #optimization #video2text #realtime
Ускорение понимания визуально-языковыми моделями длинных видео за счёт параллельного декодирования видео, эффективного предварительного заполнения памяти и совмещения декодирования с анализом, что позволяет добиться рилтайма
Код
#VLM #optimization #video2text #realtime
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
MMaDA - Open-Sourced Multimodal Large Diffusion Language Models
Рассуждающая визуально-языковая модель
Умеет генерировать картинки по тексту? понимать их и рассуждать
Код
Демо
#vlm #reasoning
Рассуждающая визуально-языковая модель
Умеет генерировать картинки по тексту? понимать их и рассуждать
Код
Демо
#vlm #reasoning
👍3❤1🔥1
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies
Разработка ByteDance.
Создаёт 3D-миры по текстовым описаниям для виртуальной реальности. Сначала формируется базовая местность, а затем добавляются объекты.
Под капотом агенты, работающие на основе визуальных языковых моделей
Код ждем
#VR #vlm #text2scene #text2world
Разработка ByteDance.
Создаёт 3D-миры по текстовым описаниям для виртуальной реальности. Сначала формируется базовая местность, а затем добавляются объекты.
Под капотом агенты, работающие на основе визуальных языковых моделей
Код ждем
#VR #vlm #text2scene #text2world
👍9🤯6❤4
Baidu выпустили в опенсорс семейство моделей ERNIE 4.5
#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)
Попробовать
Веса
Гитхаб
AI Studio
#assistant #reasoning #VLM
#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.
Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)
Попробовать
Веса
Гитхаб
AI Studio
#assistant #reasoning #VLM
👍6
Ovis-U1
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений
- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.
- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.
- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.
Код
Веса
Демо
#vlm #text2image #imageediting #captioning #image2text
👍8🔥1🤔1
Kwai Keye-VL
Модель хорошо понимает короткие видео. Keye-VL имеет 8 миллиардов параметров и умеет обрабатывать информацию из видео и текста
Код
Демо
Веса
#vlm #video2text
Модель хорошо понимает короткие видео. Keye-VL имеет 8 миллиардов параметров и умеет обрабатывать информацию из видео и текста
Код
Демо
Веса
#vlm #video2text
❤7👍1
VLM Image Captioning Tool
Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.
Поддерживает большинство VLM провайдеров, в том числе локальные VLM
Видео
#captioning #image2text #vlm
Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.
Поддерживает большинство VLM провайдеров, в том числе локальные VLM
Видео
#captioning #image2text #vlm
GitHub
GitHub - victorchall/vlm-caption: Multiturn VLM Bulk captioning using your api service
Multiturn VLM Bulk captioning using your api service - victorchall/vlm-caption
👍5❤3
This media is not supported in your browser
VIEW IN TELEGRAM
VideoPrism: A foundational visual encoder for video understanding
Базовая модель понимания видео от Google
Умеет понимать, что происходит в видео, и может выполнять разные задачи, например, классифицировать видео, находить определённые моменты, генерировать описания и отвечать на вопросы по содержанию видео
Гитхаб
HF
Колаб
#vlm #video2text
Базовая модель понимания видео от Google
Умеет понимать, что происходит в видео, и может выполнять разные задачи, например, классифицировать видео, находить определённые моменты, генерировать описания и отвечать на вопросы по содержанию видео
Гитхаб
HF
Колаб
#vlm #video2text
👍5🔥1
PyVision: Agentic Vision with Dynamic Tooling
Так, агенты добрались и до визуального понимания.
PyVision — это новая система, которая позволяет моделям машинного обучения работать с изображениями и придумывать собственные инструменты для решения задач. Модель может анализировать картинки, находить на них нужные объекты, измерять их. По сути, учится «видеть» и понимать мир как человек, но с помощью кода и алгоритмов.
Например, создает код на питоне для решения задачи
Работает через API OpenAI, поэтому для работы нужен API ключ OpenAI
Код
Демо
#vlm #agent #image2text
Так, агенты добрались и до визуального понимания.
PyVision — это новая система, которая позволяет моделям машинного обучения работать с изображениями и придумывать собственные инструменты для решения задач. Модель может анализировать картинки, находить на них нужные объекты, измерять их. По сути, учится «видеть» и понимать мир как человек, но с помощью кода и алгоритмов.
Например, создает код на питоне для решения задачи
Работает через API OpenAI, поэтому для работы нужен API ключ OpenAI
Код
Демо
#vlm #agent #image2text
👍7
Media is too big
VIEW IN TELEGRAM
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction
Сегментатор объектов на видео. Под капотом визуально-языковая модель #vlm
На показанных примерах Точно узнает объект который исчез и снова появился, тогда как SAM 2 теряет его и ошибочно цепляется за другой.
Код
Веса ~15Гб
#segmentation #video2mask
Сегментатор объектов на видео. Под капотом визуально-языковая модель #vlm
На показанных примерах Точно узнает объект который исчез и снова появился, тогда как SAM 2 теряет его и ошибочно цепляется за другой.
Код
Веса ~15Гб
#segmentation #video2mask
👍13😱1
ARC-Hunyuan-Video-7B
Пониматор коротких видео от Tencent
Одновременно обрабатывает картинку и звук.
Знает не только что происходит, но и когда.
Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.
Код
Веса
Демо - вход по китайскому номеру🤩
#vlm #assistant #video2text
Пониматор коротких видео от Tencent
Одновременно обрабатывает картинку и звук.
Знает не только что происходит, но и когда.
Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.
Код
Веса
Демо - вход по китайскому номеру
#vlm #assistant #video2text
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍2🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
Базовая визуально-языковая модель понимания 3D сцен/
Умеет описывать сцены, отвечать на вопросы о них, планировать действия в виртуальном пространстве
Код
Веса
#vlm #3d #3dvlm #assistant #captioning
Базовая визуально-языковая модель понимания 3D сцен/
Умеет описывать сцены, отвечать на вопросы о них, планировать действия в виртуальном пространстве
Код
Веса
#vlm #3d #3dvlm #assistant #captioning
🔥8👍1
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation
Генератор-пониматор-редактор картинок на авторегрессии.
Редактирует по текстовым указаниям
1.5B параметров.
На создание изображения 1024х1024 расходует меньше 15Гб VRAM
Код
Веса
Демо
#vlm #imageediting #text2image
Генератор-пониматор-редактор картинок на авторегрессии.
Редактирует по текстовым указаниям
1.5B параметров.
На создание изображения 1024х1024 расходует меньше 15Гб VRAM
Код
Веса
Демо
#vlm #imageediting #text2image
👍7
Skywork-UniPic
И еще один генератор-редактор. Но этот еще и пониматор картинок. Модель в количестве две штуки
UniPic-1 - авторегрессионная модель с нуля
UniPic-2 - основана эффективных архитектурах с диффузионным постобучением. Включает варианты SD3.5M-Kontext и MetaQuery
Умеет:
- генерация изображений по тексту
- редактирование изображений (бесшовная дорисовка, удаление объектов, манипуляция объектами);
- понимание изображений (устойчивые возможности восприятия для решения различных визуальных задач)
Явно уступает nano-banana по редактированию, но там опенсорсом не пахнет пока
Гитхаб
Демо UniPic-1
Демо UniPic-2
#vlm #imageediting #text2image #image2image
И еще один генератор-редактор. Но этот еще и пониматор картинок. Модель в количестве две штуки
UniPic-1 - авторегрессионная модель с нуля
UniPic-2 - основана эффективных архитектурах с диффузионным постобучением. Включает варианты SD3.5M-Kontext и MetaQuery
Умеет:
- генерация изображений по тексту
- редактирование изображений (бесшовная дорисовка, удаление объектов, манипуляция объектами);
- понимание изображений (устойчивые возможности восприятия для решения различных визуальных задач)
Явно уступает nano-banana по редактированию, но там опенсорсом не пахнет пока
Гитхаб
Демо UniPic-1
Демо UniPic-2
#vlm #imageediting #text2image #image2image
👍3👎3
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
Обновилась линейка мультимодальных моделей InternVL от OpenGVlab
От 1.1B до 241B параметров
— разделяет обработку визуальной и языковой информации для оптимизации нагрузки
— ускоряет вывод в 4,05 раза и улучшает рассуждения на 16 % по сравнению с предыдущей версией
— поддерживает взаимодействие с GUI и воплощённое агентство (применение в роботах?)
— конкурирует с коммерческими моделями вроде GPT-5
Веса
Гитхаб
Попробовать в чате
#vlm #agent
Обновилась линейка мультимодальных моделей InternVL от OpenGVlab
От 1.1B до 241B параметров
— разделяет обработку визуальной и языковой информации для оптимизации нагрузки
— ускоряет вывод в 4,05 раза и улучшает рассуждения на 16 % по сравнению с предыдущей версией
— поддерживает взаимодействие с GUI и воплощённое агентство (применение в роботах?)
— конкурирует с коммерческими моделями вроде GPT-5
Веса
Гитхаб
Попробовать в чате
#vlm #agent
👍7❤1