This media is not supported in your browser
VIEW IN TELEGRAM
MGIE: Guiding Instruction-based Image Editing via Multimodal Large Language Models
Что? нет. Или да.
Фоткаем, просим LLM что-нибудь поменять на фото.
Все это на айфоне.
Apple поделились кодом. Объясните кто-нибудь, какой толк на айфоне от кода на питоне?
Код
Демо
#MLLM #VLM #mobile #image2image #inpainting
Что? нет. Или да.
Фоткаем, просим LLM что-нибудь поменять на фото.
Все это на айфоне.
Apple поделились кодом. Объясните кто-нибудь, какой толк на айфоне от кода на питоне?
Код
Демо
#MLLM #VLM #mobile #image2image #inpainting
😁3👍1
MoMA: Multimodal LLM Adapter for Fast PersonalizedImage Generation
Мультимодальный LLM-адаптер (#MLLM), специализируется на создании персонализированных изображений с учетом тематики.
Умеет редактировать контекст (погода, локация), текстуры.
От кого? Правильно, от ByteDance
Код
Модель
#text2image #text2image
Мультимодальный LLM-адаптер (#MLLM), специализируется на создании персонализированных изображений с учетом тематики.
Умеет редактировать контекст (погода, локация), текстуры.
От кого? Правильно, от ByteDance
Код
Модель
#text2image #text2image
🔥5❤2
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами
По бенчмарку MLVU превосходит GPT-4o
Код
Демо
#mllm #vlm #video2text #image2text #3d2text
👍11
LLaMa 3.2 Multimodal Web UI using Ollama
Ах да, забыл вам дать ссылку на локальную морду для новой лламы
Про требования к железу не спрашивайте, заготавливайте гигабайты
[UPDATE] в комментариях ссылка на получение ключа api на сумму 5$
Код
#mllm #vlm #assistant
Ах да, забыл вам дать ссылку на локальную морду для новой лламы
Про требования к железу не спрашивайте, заготавливайте гигабайты
[UPDATE] в комментариях ссылка на получение ключа api на сумму 5$
Код
#mllm #vlm #assistant
👍2
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс
Код
Демо
#Multimodal #Mllm
Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс
Код
Демо
#Multimodal #Mllm
😁11👍3
This media is not supported in your browser
VIEW IN TELEGRAM
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
А вот вам свежий метод экномии видеотокенов для видеопониматоров от запрещенной Meta.
Под капотом DINOv2 и еще чего-то там.
Прикручено к Qwen и Llama3.2 от 1B до 7B
Код
Демо
#MLLM #VLM
А вот вам свежий метод экномии видеотокенов для видеопониматоров от запрещенной Meta.
Под капотом DINOv2 и еще чего-то там.
Прикручено к Qwen и Llama3.2 от 1B до 7B
Код
Демо
#MLLM #VLM
👍5🔥2
InternVL 2.5
Новый чемпион в понимании изображений. Семейство моделей от 1B до 78B параметров
Гитхаб
Чат демо
Демо HF
Веса
#VLM #MLLM #assistant
Новый чемпион в понимании изображений. Семейство моделей от 1B до 78B параметров
Гитхаб
Чат демо
Демо HF
Веса
#VLM #MLLM #assistant
👍6
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks
Мультимодальная модель от NVIDIA для понимания изображений и видео на уровне отдельных объектов и областей
Код ждем
#mllm #vlm
Мультимодальная модель от NVIDIA для понимания изображений и видео на уровне отдельных объектов и областей
Код ждем
#mllm #vlm
👍9🥴1
Kimi k1.5
Еще одна китайская рассуждалка, мультимодальная
Чат - непонятно какая тут версия, все на китайском, русский понимает, по ссылкам ходит
Гитхаб - здесь только технический отчет
#assistant #mllm #mlm #reasoning
Еще одна китайская рассуждалка, мультимодальная
Чат - непонятно какая тут версия, все на китайском, русский понимает, по ссылкам ходит
Гитхаб - здесь только технический отчет
#assistant #mllm #mlm #reasoning
👍5🔥2
Janus-Pro
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
👍4
Kimi k1.5
Похоже, китайская мультимодальная модель чуть обновилась
- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык
Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности
Чат
#assistant #mllm #mlm #reasoning
Похоже, китайская мультимодальная модель чуть обновилась
- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык
Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности
Чат
#assistant #mllm #mlm #reasoning
👍3
Kimi K2
Новая версия китайской мультимодалки.
Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают
Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии:
Kimi-K2-Base: Базовая модель, с которой можно начинать работу исследователям и разработчикам, которым нужен полный контроль для точной настройки и создания пользовательских решений.
Kimi-K2-Instruct: модель после обучения, которая лучше всего подходит для работы с клиентами, общения в чате общего назначения и взаимодействия с агентами. Это модель рефлекторного уровня, о которой не нужно долго думать.
- Обрабатывает 100 тысяч строк данных за раз - Строит визуализации
- Создаёт игры в вебе, на создание клона Minecraft у Kimi K2 ушла одна попытка
- Планирует путешествия через 17 инструментов
- Токены в 5 раз дешевле чем у конкурентов
Уже на Perplexity
Хотя какая разница если можно пользоваться прямо на офсайте и в мобильном приложении
Мультимодальные функции пока не работают
Гитхаб
Веса - вам точно это надо?
Попробовать на офсайте - в левом нижнем углу переключаем на английский
На мобиле не факт что K2 уже есть, не проверял
AppStore
Android
#assistant #mllm #mlm #reasoning #mobile #ios
Новая версия китайской мультимодалки.
Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают
Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии:
Kimi-K2-Base: Базовая модель, с которой можно начинать работу исследователям и разработчикам, которым нужен полный контроль для точной настройки и создания пользовательских решений.
Kimi-K2-Instruct: модель после обучения, которая лучше всего подходит для работы с клиентами, общения в чате общего назначения и взаимодействия с агентами. Это модель рефлекторного уровня, о которой не нужно долго думать.
- Обрабатывает 100 тысяч строк данных за раз - Строит визуализации
- Создаёт игры в вебе, на создание клона Minecraft у Kimi K2 ушла одна попытка
- Планирует путешествия через 17 инструментов
- Токены в 5 раз дешевле чем у конкурентов
Уже на Perplexity
Хотя какая разница если можно пользоваться прямо на офсайте и в мобильном приложении
Мультимодальные функции пока не работают
Гитхаб
Веса - вам точно это надо?
Попробовать на офсайте - в левом нижнем углу переключаем на английский
На мобиле не факт что K2 уже есть, не проверял
AppStore
Android
#assistant #mllm #mlm #reasoning #mobile #ios
❤6👍1