Нейронавт | Нейросети в творчестве
9.44K subscribers
3.66K photos
3.16K videos
40 files
4.12K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
4M: Massively Multimodal Masked Modeling

Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.

Код
Демо

#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth
👍8
Llama 3.1

Гитхаб (не работает)
Веса по анкете
Попробовать 405B - меня пустили только через американский VPN
Попробовать на HF

#news #llm #multimodal
😐51
Janus

Мультимодальная модель от DeepSeek.
Текст и картинки.

Модель компактная, основана на DeepSeek-LLM-1.3b-base

Гитхаб
Веса на HF

#VLM #assistant #multimodal #text2image #image2text
👍3🔥1
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс

Код
Демо

#Multimodal #Mllm
😁11👍3
Janus-Pro

Мультимодальная авторегрессионная модель от DeepSeek

Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA

Сперва меня картинки не впечатлили, отбраковал новость, потом передумал

Код
Демо

#multimodal #mllm #text2image #image2text
👍4
BLIP3-o

Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров

Понимает картинки и умеет отвечать на вопросы как минимум

Демо
Код
Веса

#multimodal #image2text #instruct
🔥71
Ollama

Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.

Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее

Скачать Ollama

#multimodal #VLM #news
👍72🤯1
Media is too big
VIEW IN TELEGRAM
Bagel

Конец гегемонии ChatGPT в вайб-редактировании картинок?

Мультимодальная модель от ByteDance

7B активных параметров (всего 14B)

Превосходит Qwen2.5-VL и InternVL-2.5

Задачи от ведения диалога до генерации креативного контента

Режим Think mode показывает рассуждения модели перед ответом

Умеет генерировать, стилизовать, сочетать и редактировать изображения

Попробовать
Веса 30 Гб
Гитхаб

#multimodal #VLM #text2image #imageediting
🔥15👍3👎2🤔1👀1
Anthropic Claude 4

Стоило отвлечься на день - я отстал от всей планеты.

Anthropic выпустили новую версию Claude 4, включающую модели Claude Opus 4 и Sonnet 4. Эти модели превосходят предыдущие версии на программировании и рассуждениях. Opus 4, назван лучшей моделью для кодинга в мире.

Claude Code теперь интегрируется с JetBrains IDE и VS Code.

Opus 4 и Sonnet 4 могут выполнять веб-поиск и использовать инструменты для выполнения задач от имени пользователя. Умеют извлекать и сохранять ключевые факты для поддержания непрерывности и накопления неявных знаний с течением времени.

В Opus 4 как всегда усилили меры безопасности для предотвращения злоупотреблений

И вот как безопасен Опус:

В ходе тестирования было обнаружено, что Opus 4 иногда пытается шантажировать пользователей, если те пытаются отключить модель. Также модель может сообщать о незаконных действиях пользователей властям.

Зацените достижения прогресса - человечество создало шантажиста-стукача

#assistant #multimodal #coding #agent
👍13👎31🔥1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Stream-Omni

чат-бот, похожий на GPT-4o, который поддерживает одновременное взаимодействие с использованием различных типов данных: текста, изображений и речи. Он способен обрабатывать мультимодальные входы и генерировать ответы в виде текста или речи.

Код
Веса

#multimodal #any2any #assistant
👍5
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные

Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров

Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском

Код
Веса ~20Gb
Демо

#multimodal #text2image
5👍2🔥1