Нейронавт | Нейросети в творчестве

MGIE: Guiding Instruction-based Image Editing via Multimodal Large Language Models

Что? нет. Или да.
Фоткаем, просим LLM что-нибудь поменять на фото.
Все это на айфоне.
Apple поделились кодом. Объясните кто-нибудь, какой толк на айфоне от кода на питоне?

Код
Демо

#MLLM #VLM #mobile #image2image #inpainting

😁3👍1

1.32K viewsedited 08:40

Нейронавт | Нейросети в творчестве

MoMA: Multimodal LLM Adapter for Fast PersonalizedImage Generation

Мультимодальный LLM-адаптер (#MLLM), специализируется на создании персонализированных изображений с учетом тематики.

Умеет редактировать контекст (погода, локация), текстуры.

От кого? Правильно, от ByteDance

Код
Модель

#text2image #text2image

🔥5❤2

1.66K viewsedited 07:01

Нейронавт | Нейросети в творчестве

Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами

По бенчмарку MLVU превосходит GPT-4o

Код
Демо

#mllm #vlm #video2text #image2text #3d2text

👍11

1.57K viewsedited 07:01

Нейронавт | Нейросети в творчестве

LLaMa 3.2 Multimodal Web UI using Ollama

Ах да, забыл вам дать ссылку на локальную морду для новой лламы
Про требования к железу не спрашивайте, заготавливайте гигабайты

[UPDATE] в комментариях ссылка на получение ключа api на сумму 5$

Код

#mllm #vlm #assistant

👍2

1.67K viewsedited 12:07

Нейронавт | Нейросети в творчестве

Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс

Код
Демо

#Multimodal #Mllm

😁11👍3

1.47K viewsedited 09:43

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

А вот вам свежий метод экномии видеотокенов для видеопониматоров от запрещенной Meta.
Под капотом DINOv2 и еще чего-то там.

Прикручено к Qwen и Llama3.2 от 1B до 7B

Код
Демо

#MLLM #VLM

👍5🔥2

1.37K viewsedited 11:03

Нейронавт | Нейросети в творчестве

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

InternVL 2.5

Новый чемпион в понимании изображений. Семейство моделей от 1B до 78B параметров

Гитхаб
Чат демо
Демо HF
Веса

#VLM #MLLM #assistant

👍6

1.65K views07:14

Нейронавт | Нейросети в творчестве

1:41

This media is not supported in your browser

VIEW IN TELEGRAM

Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Мультимодальная модель от NVIDIA для понимания изображений и видео на уровне отдельных объектов и областей

Код ждем

#mllm #vlm

👍9🥴1

1.49K views10:13

Нейронавт | Нейросети в творчестве

Kimi k1.5

Еще одна китайская рассуждалка, мультимодальная

Чат - непонятно какая тут версия, все на китайском, русский понимает, по ссылкам ходит

Гитхаб - здесь только технический отчет

#assistant #mllm #mlm #reasoning

👍5🔥2

1.81K viewsedited 08:22

Нейронавт | Нейросети в творчестве

Janus-Pro

Мультимодальная авторегрессионная модель от DeepSeek

Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA

Сперва меня картинки не впечатлили, отбраковал новость, потом передумал

Код
Демо

#multimodal #mllm #text2image #image2text

👍4

1.91K viewsedited 08:02

About

Blog

Apps

Platform