Нейронавт | Нейросети в творчестве
9.24K subscribers
3.53K photos
3.05K videos
40 files
4.02K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
LLaVA-Plus: Large Language and Vision Assistants that Plug and Learn to Use Skills

Мультимодальная система агентов на базе LLaVA и пачки других нейронок:

Grounding DINO
Grounded-Segment-Anything
Recognize Anythging
Segment-Anything.
SEEM: Segment Everything Everywhere All at Once
Semantic-SAM
Segment-Anything

Гихаб
Демо

#VLM #multimodal #assistant
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Google Bard научился смотреть видео на YouTube и пересказывать их. Можно попросить его показать подборку видео на тему, обсудить содержимое видео. Ну и другие расширения у Bard тоже есть. Для россиян через VPN

Говорят, что видео он не понимает, тупо читает титры

#assistant #chatbot #VLM #multimodal
This media is not supported in your browser
VIEW IN TELEGRAM
Seamless Communication

Meta AI выпустили новую версию своего нейропереводчика.
На этот раз три модели:

SeamlessM4T v2 - улучшенная версия SeamlessM4T.
Демо

SeamlessExpressive - модель с акцентом на выразительность речи.
Демо

SeamlessStreaming - модель перевода в реальном времени, задержка 2 секунды.
Демо

Гитхаб

#dubbing #multimodal #llm #speech2speech #text2speech #speech2text #tts #stt
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 1.5

Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)

- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных

Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона. Думаю, схитрили, там разрешение видео небольшое

#MoE #multimodal #VLM #assistant
👍5🔥3
Media is too big
VIEW IN TELEGRAM
Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

Убийца... ВСЕГО.

Ладно, это преувеличение. Всего лишь мультимодальный преобразователь текста в картинки, видео, речь, 3D модели.

Умеет (см видео)
- создавать заданную композицию
- консистентно генерировать в заданном стиле
- креативный апскейл
- редактировать изображения

Код
Веса
Демо (генератор картинок)

#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal
🔥12
4M: Massively Multimodal Masked Modeling

Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.

Код
Демо

#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth
👍8
Llama 3.1

Гитхаб (не работает)
Веса по анкете
Попробовать 405B - меня пустили только через американский VPN
Попробовать на HF

#news #llm #multimodal
😐51
Janus

Мультимодальная модель от DeepSeek.
Текст и картинки.

Модель компактная, основана на DeepSeek-LLM-1.3b-base

Гитхаб
Веса на HF

#VLM #assistant #multimodal #text2image #image2text
👍3🔥1
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс

Код
Демо

#Multimodal #Mllm
😁11👍3
Janus-Pro

Мультимодальная авторегрессионная модель от DeepSeek

Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA

Сперва меня картинки не впечатлили, отбраковал новость, потом передумал

Код
Демо

#multimodal #mllm #text2image #image2text
👍4
BLIP3-o

Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров

Понимает картинки и умеет отвечать на вопросы как минимум

Демо
Код
Веса

#multimodal #image2text #instruct
🔥71
Ollama

Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.

Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее

Скачать Ollama

#multimodal #VLM #news
👍72🤯1
Media is too big
VIEW IN TELEGRAM
Bagel

Конец гегемонии ChatGPT в вайб-редактировании картинок?

Мультимодальная модель от ByteDance

7B активных параметров (всего 14B)

Превосходит Qwen2.5-VL и InternVL-2.5

Задачи от ведения диалога до генерации креативного контента

Режим Think mode показывает рассуждения модели перед ответом

Умеет генерировать, стилизовать, сочетать и редактировать изображения

Попробовать
Веса 30 Гб
Гитхаб

#multimodal #VLM #text2image #imageediting
🔥15👍3👎2🤔1👀1
Anthropic Claude 4

Стоило отвлечься на день - я отстал от всей планеты.

Anthropic выпустили новую версию Claude 4, включающую модели Claude Opus 4 и Sonnet 4. Эти модели превосходят предыдущие версии на программировании и рассуждениях. Opus 4, назван лучшей моделью для кодинга в мире.

Claude Code теперь интегрируется с JetBrains IDE и VS Code.

Opus 4 и Sonnet 4 могут выполнять веб-поиск и использовать инструменты для выполнения задач от имени пользователя. Умеют извлекать и сохранять ключевые факты для поддержания непрерывности и накопления неявных знаний с течением времени.

В Opus 4 как всегда усилили меры безопасности для предотвращения злоупотреблений

И вот как безопасен Опус:

В ходе тестирования было обнаружено, что Opus 4 иногда пытается шантажировать пользователей, если те пытаются отключить модель. Также модель может сообщать о незаконных действиях пользователей властям.

Зацените достижения прогресса - человечество создало шантажиста-стукача

#assistant #multimodal #coding #agent
👍13👎31🔥1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Stream-Omni

чат-бот, похожий на GPT-4o, который поддерживает одновременное взаимодействие с использованием различных типов данных: текста, изображений и речи. Он способен обрабатывать мультимодальные входы и генерировать ответы в виде текста или речи.

Код
Веса

#multimodal #any2any #assistant
👍5
X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные

Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров

Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском

Код
Веса ~20Gb
Демо

#multimodal #text2image
5👍2🔥1