ComfyUI-LuminaWrapper
Поддержка Lumina в #comfyUI
Еще в процессе разработки.
#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
Поддержка Lumina в #comfyUI
Еще в процессе разработки.
#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
❤6👍1
4M: Massively Multimodal Masked Modeling
Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.
Код
Демо
#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth
Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.
Код
Демо
#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth
👍8
Llama 3.1
Гитхаб (не работает)
Веса по анкете
Попробовать 405B - меня пустили только через американский VPN
Попробовать на HF
#news #llm #multimodal
Гитхаб (не работает)
Веса по анкете
Попробовать 405B - меня пустили только через американский VPN
Попробовать на HF
#news #llm #multimodal
😐5❤1
Janus
Мультимодальная модель от DeepSeek.
Текст и картинки.
Модель компактная, основана на DeepSeek-LLM-1.3b-base
Гитхаб
Веса на HF
#VLM #assistant #multimodal #text2image #image2text
Мультимодальная модель от DeepSeek.
Текст и картинки.
Модель компактная, основана на DeepSeek-LLM-1.3b-base
Гитхаб
Веса на HF
#VLM #assistant #multimodal #text2image #image2text
👍3🔥1
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс
Код
Демо
#Multimodal #Mllm
Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс
Код
Демо
#Multimodal #Mllm
😁11👍3
Janus-Pro
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
Мультимодальная авторегрессионная модель от DeepSeek
Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA
Сперва меня картинки не впечатлили, отбраковал новость, потом передумал
Код
Демо
#multimodal #mllm #text2image #image2text
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Lumina-Video-f24R960
Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту
#text2video #text2audio #multimodal
Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту
#text2video #text2audio #multimodal
😁13😭8🔥4
BLIP3-o
Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров
Понимает картинки и умеет отвечать на вопросы как минимум
Демо
Код
Веса
#multimodal #image2text #instruct
Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров
Понимает картинки и умеет отвечать на вопросы как минимум
Демо
Код
Веса
#multimodal #image2text #instruct
🔥7❤1
Ollama
Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.
Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее
Скачать Ollama
#multimodal #VLM #news
Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.
Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее
Скачать Ollama
#multimodal #VLM #news
👍7❤2🤯1
Media is too big
VIEW IN TELEGRAM
Bagel
Конец гегемонии ChatGPT в вайб-редактировании картинок?
Мультимодальная модель от ByteDance
7B активных параметров (всего 14B)
Превосходит Qwen2.5-VL и InternVL-2.5
Задачи от ведения диалога до генерации креативного контента
Режим Think mode показывает рассуждения модели перед ответом
Умеет генерировать, стилизовать, сочетать и редактировать изображения
Попробовать
Веса 30 Гб
Гитхаб
#multimodal #VLM #text2image #imageediting
Конец гегемонии ChatGPT в вайб-редактировании картинок?
Мультимодальная модель от ByteDance
7B активных параметров (всего 14B)
Превосходит Qwen2.5-VL и InternVL-2.5
Задачи от ведения диалога до генерации креативного контента
Режим Think mode показывает рассуждения модели перед ответом
Умеет генерировать, стилизовать, сочетать и редактировать изображения
Попробовать
Веса 30 Гб
Гитхаб
#multimodal #VLM #text2image #imageediting
🔥15👍3👎2🤔1👀1
Anthropic Claude 4
Стоило отвлечься на день - я отстал от всей планеты.
Anthropic выпустили новую версию Claude 4, включающую модели Claude Opus 4 и Sonnet 4. Эти модели превосходят предыдущие версии на программировании и рассуждениях. Opus 4, назван лучшей моделью для кодинга в мире.
Claude Code теперь интегрируется с JetBrains IDE и VS Code.
Opus 4 и Sonnet 4 могут выполнять веб-поиск и использовать инструменты для выполнения задач от имени пользователя. Умеют извлекать и сохранять ключевые факты для поддержания непрерывности и накопления неявных знаний с течением времени.
В Opus 4 как всегда усилили меры безопасности для предотвращения злоупотреблений
И вот как безопасен Опус:
В ходе тестирования было обнаружено, что Opus 4 иногда пытается шантажировать пользователей, если те пытаются отключить модель. Также модель может сообщать о незаконных действиях пользователей властям.
Зацените достижения прогресса - человечество создало шантажиста-стукача
#assistant #multimodal #coding #agent
Стоило отвлечься на день - я отстал от всей планеты.
Anthropic выпустили новую версию Claude 4, включающую модели Claude Opus 4 и Sonnet 4. Эти модели превосходят предыдущие версии на программировании и рассуждениях. Opus 4, назван лучшей моделью для кодинга в мире.
Claude Code теперь интегрируется с JetBrains IDE и VS Code.
Opus 4 и Sonnet 4 могут выполнять веб-поиск и использовать инструменты для выполнения задач от имени пользователя. Умеют извлекать и сохранять ключевые факты для поддержания непрерывности и накопления неявных знаний с течением времени.
В Opus 4 как всегда усилили меры безопасности для предотвращения злоупотреблений
И вот как безопасен Опус:
В ходе тестирования было обнаружено, что Opus 4 иногда пытается шантажировать пользователей, если те пытаются отключить модель. Также модель может сообщать о незаконных действиях пользователей властям.
Зацените достижения прогресса - человечество создало шантажиста-стукача
#assistant #multimodal #coding #agent
Anthropic
Introducing Claude 4
Discover Claude 4's breakthrough AI capabilities. Experience more reliable, interpretable assistance for complex tasks across work and learning.
👍13👎3❤1🔥1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Stream-Omni
чат-бот, похожий на GPT-4o, который поддерживает одновременное взаимодействие с использованием различных типов данных: текста, изображений и речи. Он способен обрабатывать мультимодальные входы и генерировать ответы в виде текста или речи.
Код
Веса
#multimodal #any2any #assistant
чат-бот, похожий на GPT-4o, который поддерживает одновременное взаимодействие с использованием различных типов данных: текста, изображений и речи. Он способен обрабатывать мультимодальные входы и генерировать ответы в виде текста или речи.
Код
Веса
#multimodal #any2any #assistant
👍5
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again
Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные
Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров
Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском
Код
Веса ~20Gb
Демо
#multimodal #text2image
Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные
Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров
Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском
Код
Веса ~20Gb
Демо
#multimodal #text2image
❤5👍2🔥1