Нейронавт | Нейросети в творчестве
9.41K subscribers
3.63K photos
3.14K videos
40 files
4.1K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Пониматор видео, мультимодальный агентный фреймворк, который улучшает понимание видеое за счет имитации человекоподобных процессов, таких как разбиение задач, локализация и проверка моментов, а также синтез ответов. Этот подход решает уникальные проблемы, связанные с рассуждениями, основанными на времени

Код
Демо
HF

#vlm #reasoning
👍8
JoyCaption Beta One

Вышла новая бета версия открытой модели для текстового описания изображений

Ключевые функции

• Свободный и открытый: без ограничений, с открытым весом.
• Без цензуры: равный охват SFW и NSFW.
• Разнообразие: широкий охват стилей изображений и содержания.
• Минимальная фильтрация: обучение на больших массивах изображений.

Что нового

• Больше тренировок: 2,4 миллиона обучающих выборок.
• Простой режим: золотая середина между многословными и лаконичными режимами.
• Настройки тегирования Booru: стабилизация и повышение полезности.
• Точность водяных знаков: обновление учебных данных.
• VQA: добавление данных для расширения диапазона инструкций.
• Увеличение количества тегов: поддержка указания списка тегов booru.
• Обучение с подкреплением: устранение проблем с Alpha Two.

Предостережения

• JoyCaption далек от совершенства, возможны сбои.
• Частота сбоев снижена, но все еще высока.
• Некоторые запросы NSFW могут вызывать отказ, но это не намеренно.

Гитхаб
Демо
HF
Civitai

#image2text #captioning #vlm
👍9👌1
This media is not supported in your browser
VIEW IN TELEGRAM
Код и веса персонализатора-кастомизатора DreamEngine опубликованы (давно)

Код
Веса

#text2image #vlm #personalization
👍6
Ollama

Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.

Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее

Скачать Ollama

#multimodal #VLM #news
👍72🤯1
Media is too big
VIEW IN TELEGRAM
Bagel

Конец гегемонии ChatGPT в вайб-редактировании картинок?

Мультимодальная модель от ByteDance

7B активных параметров (всего 14B)

Превосходит Qwen2.5-VL и InternVL-2.5

Задачи от ведения диалога до генерации креативного контента

Режим Think mode показывает рассуждения модели перед ответом

Умеет генерировать, стилизовать, сочетать и редактировать изображения

Попробовать
Веса 30 Гб
Гитхаб

#multimodal #VLM #text2image #imageediting
🔥15👍3👎2🤔1👀1
QuickVideo

Ускорение понимания визуально-языковыми моделями длинных видео за счёт параллельного декодирования видео, эффективного предварительного заполнения памяти и совмещения декодирования с анализом, что позволяет добиться рилтайма

Код

#VLM #optimization #video2text #realtime
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
MMaDA - Open-Sourced Multimodal Large Diffusion Language Models

Рассуждающая визуально-языковая модель

Умеет генерировать картинки по тексту? понимать их и рассуждать

Код
Демо

#vlm #reasoning
👍31🔥1
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies

Разработка ByteDance.
Создаёт 3D-миры по текстовым описаниям для виртуальной реальности. Сначала формируется базовая местность, а затем добавляются объекты.

Под капотом агенты, работающие на основе визуальных языковых моделей

Код ждем

#VR #vlm #text2scene #text2world
👍9🤯64
Baidu выпустили в опенсорс семейство моделей ERNIE 4.5

#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.

Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)

Попробовать
Веса
Гитхаб
AI Studio

#assistant #reasoning #VLM
👍6
Ovis-U1

Мультимодальная модель от Alibaba для понимания, генерации и редактирования изображений

- Поддерживает понимание сложных визуальных сцен и текстового контента, ответы на вопросы об изображениях, выполнение визуальных ответов на вопросы (VQA) и генерацию описаний изображений.

- Генерирует высококачественные изображения на основе текстовых описаний, поддерживая различные стили и сложные изображения сцен.

- Точное редактирование изображений на основе текстовых инструкций, включая добавление, корректировку, замену или удаление элементов, а также перенос стиля.

Код
Веса
Демо

#vlm #text2image #imageediting #captioning #image2text
👍8🔥1🤔1
Kwai Keye-VL

Модель хорошо понимает короткие видео. Keye-VL имеет 8 миллиардов параметров и умеет обрабатывать информацию из видео и текста

Код
Демо
Веса

#vlm #video2text
7👍1
VLM Image Captioning Tool

Инструмент для автоматизации описания большого количества изображений. Главная фича - позволяет настроить серию промптов (а не один промпт) для пошагового процесса.

Поддерживает большинство VLM провайдеров, в том числе локальные VLM

Видео

#captioning #image2text #vlm
👍53
This media is not supported in your browser
VIEW IN TELEGRAM
VideoPrism: A foundational visual encoder for video understanding

Базовая модель понимания видео от Google

Умеет понимать, что происходит в видео, и может выполнять разные задачи, например, классифицировать видео, находить определённые моменты, генерировать описания и отвечать на вопросы по содержанию видео

Гитхаб
HF
Колаб

#vlm #video2text
👍5🔥1
PyVision: Agentic Vision with Dynamic Tooling

Так, агенты добрались и до визуального понимания.

PyVision — это новая система, которая позволяет моделям машинного обучения работать с изображениями и придумывать собственные инструменты для решения задач. Модель может анализировать картинки, находить на них нужные объекты, измерять их. По сути, учится «видеть» и понимать мир как человек, но с помощью кода и алгоритмов.

Например, создает код на питоне для решения задачи

Работает через API OpenAI, поэтому для работы нужен API ключ OpenAI

Код
Демо

#vlm #agent #image2text
👍7
Media is too big
VIEW IN TELEGRAM
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction

Сегментатор объектов на видео. Под капотом визуально-языковая модель #vlm

На показанных примерах Точно узнает объект который исчез и снова появился, тогда как SAM 2 теряет его и ошибочно цепляется за другой.

Код
Веса ~15Гб

#segmentation #video2mask
👍13😱1
ARC-Hunyuan-Video-7B

Пониматор коротких видео от Tencent

Одновременно обрабатывает картинку и звук.

Знает не только что происходит, но и когда.

Умеет делать подписи к видео с таймкодами, суммировать события, искать нужные моменты.

Код
Веса
Демо - вход по китайскому номеру 🤩

#vlm #assistant #video2text
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍2🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

Базовая визуально-языковая модель понимания 3D сцен/
Умеет описывать сцены, отвечать на вопросы о них, планировать действия в виртуальном пространстве

Код
Веса

#vlm #3d #3dvlm #assistant #captioning
🔥8👍1
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

Генератор-пониматор-редактор картинок на авторегрессии.
Редактирует по текстовым указаниям

1.5B параметров.
На создание изображения 1024х1024 расходует меньше 15Гб VRAM

Код
Веса
Демо

#vlm #imageediting #text2image
👍7
Skywork-UniPic

И еще один генератор-редактор. Но этот еще и пониматор картинок. Модель в количестве две штуки

UniPic-1 - авторегрессионная модель с нуля
UniPic-2 - основана эффективных архитектурах с диффузионным постобучением. Включает варианты SD3.5M-Kontext и MetaQuery

Умеет:

- генерация изображений по тексту

- редактирование изображений (бесшовная дорисовка, удаление объектов, манипуляция объектами);

- понимание изображений (устойчивые возможности восприятия для решения различных визуальных задач)

Явно уступает nano-banana по редактированию, но там опенсорсом не пахнет пока

Гитхаб

Демо UniPic-1
Демо UniPic-2

#vlm #imageediting #text2image #image2image
👍3👎3
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

Обновилась линейка мультимодальных моделей InternVL от OpenGVlab

От 1.1B до 241B параметров

— разделяет обработку визуальной и языковой информации для оптимизации нагрузки

— ускоряет вывод в 4,05 раза и улучшает рассуждения на 16 % по сравнению с предыдущей версией

— поддерживает взаимодействие с GUI и воплощённое агентство (применение в роботах?)

— конкурирует с коммерческими моделями вроде GPT-5

Веса
Гитхаб
Попробовать в чате

#vlm #agent
👍71