Нейронавт | Нейросети в творчестве
9.25K subscribers
3.53K photos
3.05K videos
40 files
4.02K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
MGIE: Guiding Instruction-based Image Editing via Multimodal Large Language Models

Что? нет. Или да.
Фоткаем, просим LLM что-нибудь поменять на фото.
Все это на айфоне.
Apple поделились кодом. Объясните кто-нибудь, какой толк на айфоне от кода на питоне?

Код
Демо

#MLLM #VLM #mobile #image2image #inpainting
😁3👍1
MoMA: Multimodal LLM Adapter for Fast PersonalizedImage Generation

Мультимодальный LLM-адаптер (#MLLM), специализируется на создании персонализированных изображений с учетом тематики.

Умеет редактировать контекст (погода, локация), текстуры.

От кого? Правильно, от ByteDance

Код
Модель

#text2image #text2image
🔥52
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Единая мультимодальная LLM для пространственно-временного понимания изображений, видео и трехмерных сцен с несколькими видами

По бенчмарку MLVU превосходит GPT-4o

Код
Демо

#mllm #vlm #video2text #image2text #3d2text
👍11
LLaMa 3.2 Multimodal Web UI using Ollama

Ах да, забыл вам дать ссылку на локальную морду для новой лламы
Про требования к железу не спрашивайте, заготавливайте гигабайты

[UPDATE] в комментариях ссылка на получение ключа api на сумму 5$

Код

#mllm #vlm #assistant
👍2
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс

Код
Демо

#Multimodal #Mllm
😁11👍3
This media is not supported in your browser
VIEW IN TELEGRAM
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

А вот вам свежий метод экномии видеотокенов для видеопониматоров от запрещенной Meta.
Под капотом DINOv2 и еще чего-то там.

Прикручено к Qwen и Llama3.2 от 1B до 7B

Код
Демо

#MLLM #VLM
👍5🔥2
InternVL 2.5

Новый чемпион в понимании изображений. Семейство моделей от 1B до 78B параметров

Гитхаб
Чат демо
Демо HF
Веса

#VLM #MLLM #assistant
👍6
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Мультимодальная модель от NVIDIA для понимания изображений и видео на уровне отдельных объектов и областей

Код ждем

#mllm #vlm
👍9🥴1
Kimi k1.5

Еще одна китайская рассуждалка, мультимодальная

Чат - непонятно какая тут версия, все на китайском, русский понимает, по ссылкам ходит

Гитхаб - здесь только технический отчет

#assistant #mllm #mlm #reasoning
👍5🔥2
Janus-Pro

Мультимодальная авторегрессионная модель от DeepSeek

Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA

Сперва меня картинки не впечатлили, отбраковал новость, потом передумал

Код
Демо

#multimodal #mllm #text2image #image2text
👍4
Kimi k1.5

Похоже, китайская мультимодальная модель чуть обновилась

- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык

Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности

Чат

#assistant #mllm #mlm #reasoning
👍3
Kimi K2

Новая версия китайской мультимодалки.

Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают

Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии:

Kimi-K2-Base: Базовая модель, с которой можно начинать работу исследователям и разработчикам, которым нужен полный контроль для точной настройки и создания пользовательских решений.

Kimi-K2-Instruct: модель после обучения, которая лучше всего подходит для работы с клиентами, общения в чате общего назначения и взаимодействия с агентами. Это модель рефлекторного уровня, о которой не нужно долго думать.

- Обрабатывает 100 тысяч строк данных за раз - Строит визуализации
- Создаёт игры в вебе, на создание клона Minecraft у Kimi K2 ушла одна попытка
- Планирует путешествия через 17 инструментов
- Токены в 5 раз дешевле чем у конкурентов

Уже на Perplexity
Хотя какая разница если можно пользоваться прямо на офсайте и в мобильном приложении

Мультимодальные функции пока не работают

Гитхаб
Веса - вам точно это надо?
Попробовать на офсайте - в левом нижнем углу переключаем на английский

На мобиле не факт что K2 уже есть, не проверял
AppStore
Android

#assistant #mllm #mlm #reasoning #mobile #ios
6👍1