This media is not supported in your browser
VIEW IN TELEGRAM
MGIE: Guiding Instruction-based Image Editing via Multimodal Large Language Models
Что? нет. Или да.
Фоткаем, просим LLM что-нибудь поменять на фото.
Все это на айфоне.
Apple поделились кодом. Объясните кто-нибудь, какой толк на айфоне от кода на питоне?
Код
Демо
#MLLM #VLM #mobile #image2image #inpainting
Что? нет. Или да.
Фоткаем, просим LLM что-нибудь поменять на фото.
Все это на айфоне.
Apple поделились кодом. Объясните кто-нибудь, какой толк на айфоне от кода на питоне?
Код
Демо
#MLLM #VLM #mobile #image2image #inpainting
😁3👍1
MoMA: Multimodal LLM Adapter for Fast PersonalizedImage Generation
Мультимодальный LLM-адаптер (#MLLM), специализируется на создании персонализированных изображений с учетом тематики.
Умеет редактировать контекст (погода, локация), текстуры.
От кого? Правильно, от ByteDance
Код
Модель
#text2image #text2image
Мультимодальный LLM-адаптер (#MLLM), специализируется на создании персонализированных изображений с учетом тематики.
Умеет редактировать контекст (погода, локация), текстуры.
От кого? Правильно, от ByteDance
Код
Модель
#text2image #text2image
🔥5❤2
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
👍11
LLaMa 3.2 Multimodal Web UI using Ollama
Ах да, забыл вам дать ссылку на локальную морду для новой лламы
Про требования к железу не спрашивайте, заготавливайте гигабайты
[UPDATE] в комментариях ссылка на получение ключа api на сумму 5$
Код
#mllm #vlm #assistant
Ах да, забыл вам дать ссылку на локальную морду для новой лламы
Про требования к железу не спрашивайте, заготавливайте гигабайты
[UPDATE] в комментариях ссылка на получение ключа api на сумму 5$
Код
#mllm #vlm #assistant
👍2
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс
Код
Демо
#Multimodal #Mllm
Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс
Код
Демо
#Multimodal #Mllm
😁11👍3
This media is not supported in your browser
VIEW IN TELEGRAM
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
А вот вам свежий метод экномии видеотокенов для видеопониматоров от запрещенной Meta.
Под капотом DINOv2 и еще чего-то там.
Прикручено к Qwen и Llama3.2 от 1B до 7B
Код
Демо
#MLLM #VLM
А вот вам свежий метод экномии видеотокенов для видеопониматоров от запрещенной Meta.
Под капотом DINOv2 и еще чего-то там.
Прикручено к Qwen и Llama3.2 от 1B до 7B
Код
Демо
#MLLM #VLM
👍5🔥2
InternVL 2.5
Новый чемпион в понимании изображений. Семейство моделей от 1B до 78B параметров
Гитхаб
Чат демо
Демо HF
Веса
#VLM #MLLM #assistant
Новый чемпион в понимании изображений. Семейство моделей от 1B до 78B параметров
Гитхаб
Чат демо
Демо HF
Веса
#VLM #MLLM #assistant
👍6
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks
Мультимодальная модель от NVIDIA для понимания изображений и видео на уровне отдельных объектов и областей
Код ждем
#mllm #vlm
Мультимодальная модель от NVIDIA для понимания изображений и видео на уровне отдельных объектов и областей
Код ждем
#mllm #vlm
👍9🥴1
Kimi k1.5
Еще одна китайская рассуждалка, мультимодальная
Чат - непонятно какая тут версия, все на китайском, русский понимает, по ссылкам ходит
Гитхаб - здесь только технический отчет
#assistant #mllm #mlm #reasoning
Еще одна китайская рассуждалка, мультимодальная
Чат - непонятно какая тут версия, все на китайском, русский понимает, по ссылкам ходит
Гитхаб - здесь только технический отчет
#assistant #mllm #mlm #reasoning
👍5🔥2
Janus-Pro
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
👍4