LLaVA-Plus: Large Language and Vision Assistants that Plug and Learn to Use Skills
Мультимодальная система агентов на базе LLaVA и пачки других нейронок:
Grounding DINO
Grounded-Segment-Anything
Recognize Anythging
Segment-Anything.
SEEM: Segment Everything Everywhere All at Once
Semantic-SAM
Segment-Anything
Гихаб
Демо
#VLM #multimodal #assistant
Мультимодальная система агентов на базе LLaVA и пачки других нейронок:
Grounding DINO
Grounded-Segment-Anything
Recognize Anythging
Segment-Anything.
SEEM: Segment Everything Everywhere All at Once
Semantic-SAM
Segment-Anything
Гихаб
Демо
#VLM #multimodal #assistant
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection
Визуально-языковая модель, понимает и картинки, и видео.
Код
Демо1
Демо2
#VLM #LLM #multimodal
Визуально-языковая модель, понимает и картинки, и видео.
Код
Демо1
Демо2
#VLM #LLM #multimodal
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Google Bard научился смотреть видео на YouTube и пересказывать их. Можно попросить его показать подборку видео на тему, обсудить содержимое видео. Ну и другие расширения у Bard тоже есть. Для россиян через VPN
Говорят, что видео он не понимает, тупо читает титры
#assistant #chatbot #VLM #multimodal
Говорят, что видео он не понимает, тупо читает титры
#assistant #chatbot #VLM #multimodal
This media is not supported in your browser
VIEW IN TELEGRAM
Seamless Communication
Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:
SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо
SeamlessExpressive - модель с акцентом на выразительность речи.
Демо
SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо
Гитхаб
#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:
SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо
SeamlessExpressive - модель с акцентом на выразительность речи.
Демо
SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо
Гитхаб
#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 1.5
Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)
- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных
Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона.Думаю, схитрили, там разрешение видео небольшое
#MoE #multimodal #VLM #assistant
Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)
- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных
Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона.
#MoE #multimodal #VLM #assistant
👍5🔥3
Media is too big
VIEW IN TELEGRAM
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers
Убийца... ВСЕГО.
Ладно, это преувеличение. Всего лишь мультимодальный преобразователь текста в картинки, видео, речь, 3D модели.
Умеет (см видео)
- создавать заданную композицию
- консистентно генерировать в заданном стиле
- креативный апскейл
- редактировать изображения
Код
Веса
Демо (генератор картинок)
#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
Убийца... ВСЕГО.
Ладно, это преувеличение. Всего лишь мультимодальный преобразователь текста в картинки, видео, речь, 3D модели.
Умеет (см видео)
- создавать заданную композицию
- консистентно генерировать в заданном стиле
- креативный апскейл
- редактировать изображения
Код
Веса
Демо (генератор картинок)
#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
🔥12
ComfyUI-LuminaWrapper
Поддержка Lumina в #comfyUI
Еще в процессе разработки.
#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
Поддержка Lumina в #comfyUI
Еще в процессе разработки.
#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
❤6👍1
4M: Massively Multimodal Masked Modeling
Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.
Код
Демо
#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth
Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.
Код
Демо
#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth
👍8
Llama 3.1
Гитхаб (не работает)
Веса по анкете
Попробовать 405B - меня пустили только через американский VPN
Попробовать на HF
#news #llm #multimodal
Гитхаб (не работает)
Веса по анкете
Попробовать 405B - меня пустили только через американский VPN
Попробовать на HF
#news #llm #multimodal
😐5❤1
Janus
Мультимодальная модель от DeepSeek.
Текст и картинки.
Модель компактная, основана на DeepSeek-LLM-1.3b-base
Гитхаб
Веса на HF
#VLM #assistant #multimodal #text2image #image2text
Мультимодальная модель от DeepSeek.
Текст и картинки.
Модель компактная, основана на DeepSeek-LLM-1.3b-base
Гитхаб
Веса на HF
#VLM #assistant #multimodal #text2image #image2text
👍3🔥1
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс
Код
Демо
#Multimodal #Mllm
Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс
Код
Демо
#Multimodal #Mllm
😁11👍3
Janus-Pro
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Lumina-Video-f24R960
Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту
#text2video #text2audio #multimodal
Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту
#text2video #text2audio #multimodal
😁13😭8🔥4
BLIP3-o
Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров
Понимает картинки и умеет отвечать на вопросы как минимум
Демо
Код
Веса
#multimodal #image2text #instruct
Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров
Понимает картинки и умеет отвечать на вопросы как минимум
Демо
Код
Веса
#multimodal #image2text #instruct
🔥7❤1
Ollama
Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.
Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее
Скачать Ollama
#multimodal #VLM #news
Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.
Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее
Скачать Ollama
#multimodal #VLM #news
👍7❤2🤯1
Media is too big
VIEW IN TELEGRAM
Bagel
Конец гегемонии ChatGPT в вайб-редактировании картинок?
Мультимодальная модель от ByteDance
7B активных параметров (всего 14B)
Превосходит Qwen2.5-VL и InternVL-2.5
Задачи от ведения диалога до генерации креативного контента
Режим Think mode показывает рассуждения модели перед ответом
Умеет генерировать, стилизовать, сочетать и редактировать изображения
Попробовать
Веса 30 Гб
Гитхаб
#multimodal #VLM #text2image #imageediting
Конец гегемонии ChatGPT в вайб-редактировании картинок?
Мультимодальная модель от ByteDance
7B активных параметров (всего 14B)
Превосходит Qwen2.5-VL и InternVL-2.5
Задачи от ведения диалога до генерации креативного контента
Режим Think mode показывает рассуждения модели перед ответом
Умеет генерировать, стилизовать, сочетать и редактировать изображения
Попробовать
Веса 30 Гб
Гитхаб
#multimodal #VLM #text2image #imageediting
🔥15👍3👎2🤔1👀1
Anthropic Claude 4
Стоило отвлечься на день - я отстал от всей планеты.
Anthropic выпустили новую версию Claude 4, включающую модели Claude Opus 4 и Sonnet 4. Эти модели превосходят предыдущие версии на программировании и рассуждениях. Opus 4, назван лучшей моделью для кодинга в мире.
Claude Code теперь интегрируется с JetBrains IDE и VS Code.
Opus 4 и Sonnet 4 могут выполнять веб-поиск и использовать инструменты для выполнения задач от имени пользователя. Умеют извлекать и сохранять ключевые факты для поддержания непрерывности и накопления неявных знаний с течением времени.
В Opus 4 как всегда усилили меры безопасности для предотвращения злоупотреблений
И вот как безопасен Опус:
В ходе тестирования было обнаружено, что Opus 4 иногда пытается шантажировать пользователей, если те пытаются отключить модель. Также модель может сообщать о незаконных действиях пользователей властям.
Зацените достижения прогресса - человечество создало шантажиста-стукача
#assistant #multimodal #coding #agent
Стоило отвлечься на день - я отстал от всей планеты.
Anthropic выпустили новую версию Claude 4, включающую модели Claude Opus 4 и Sonnet 4. Эти модели превосходят предыдущие версии на программировании и рассуждениях. Opus 4, назван лучшей моделью для кодинга в мире.
Claude Code теперь интегрируется с JetBrains IDE и VS Code.
Opus 4 и Sonnet 4 могут выполнять веб-поиск и использовать инструменты для выполнения задач от имени пользователя. Умеют извлекать и сохранять ключевые факты для поддержания непрерывности и накопления неявных знаний с течением времени.
В Opus 4 как всегда усилили меры безопасности для предотвращения злоупотреблений
И вот как безопасен Опус:
В ходе тестирования было обнаружено, что Opus 4 иногда пытается шантажировать пользователей, если те пытаются отключить модель. Также модель может сообщать о незаконных действиях пользователей властям.
Зацените достижения прогресса - человечество создало шантажиста-стукача
#assistant #multimodal #coding #agent
Anthropic
Introducing Claude 4
Discover Claude 4's breakthrough AI capabilities. Experience more reliable, interpretable assistance for complex tasks across work and learning.
👍13👎3❤1🔥1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Stream-Omni
чат-бот, похожий на GPT-4o, который поддерживает одновременное взаимодействие с использованием различных типов данных: текста, изображений и речи. Он способен обрабатывать мультимодальные входы и генерировать ответы в виде текста или речи.
Код
Веса
#multimodal #any2any #assistant
чат-бот, похожий на GPT-4o, который поддерживает одновременное взаимодействие с использованием различных типов данных: текста, изображений и речи. Он способен обрабатывать мультимодальные входы и генерировать ответы в виде текста или речи.
Код
Веса
#multimodal #any2any #assistant
👍5
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again
Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные
Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров
Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском
Код
Веса ~20Gb
Демо
#multimodal #text2image
Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные
Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров
Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском
Код
Веса ~20Gb
Демо
#multimodal #text2image
❤5👍2🔥1