Нейронавт | Нейросети в творчестве – Telegram

Нейронавт | Нейросети в творчестве

@GreenNeuralRobots

9.44K subscribers

3.66K photos

3.16K videos

40 files

4.12K links

Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

About

Blog

Apps

Platform

Нейронавт | Нейросети в творчестве

9.44K subscribers

Нейронавт | Нейросети в творчестве

ComfyUI-LuminaWrapper

Поддержка Lumina в #comfyUI
Еще в процессе разработки.

#upscale #text2image #text2video #text2speech #textto3D #imageediting #image2image #multimodal

❤6👍1

1.65K views06:16

Нейронавт | Нейросети в творчестве

4M: Massively Multimodal Masked Modeling

Мультимодальная нейронка от Apple
Умеет выполнять всяческие задания.
Генерация, описание, сегментация, инпейнтинг, технические карты.
Легко дообучается на определенную модальность и новую задачу.

Код
Демо

#multimodal #text2image #image2text #image2image #inpainting #segmentation #image2depth

👍8

1.64K views08:33

Нейронавт | Нейросети в творчестве

Llama 3.1

Гитхаб (не работает)
Веса по анкете
Попробовать 405B - меня пустили только через американский VPN
Попробовать на HF

#news #llm #multimodal

😐5❤1

1.45K views15:00

Нейронавт | Нейросети в творчестве

Janus

Мультимодальная модель от DeepSeek.
Текст и картинки.

Модель компактная, основана на DeepSeek-LLM-1.3b-base

Гитхаб
Веса на HF

#VLM #assistant #multimodal #text2image #image2text

👍3🔥1

1.57K views15:30

Нейронавт | Нейросети в творчестве

Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

Мультимодальная #LLM на 39 языков, русский в их числе. 7B параметров. "Полный" опенсорс

Код
Демо

#Multimodal #Mllm

😁11👍3

1.47K viewsedited 09:43

Нейронавт | Нейросети в творчестве

Janus-Pro

Мультимодальная авторегрессионная модель от DeepSeek

Генерирует картинки "лучше, чем DALL-E 3, SD3 и Emu3" (нет), а понимает изображение точнее, чем LLaVA

Сперва меня картинки не впечатлили, отбраковал новость, потом передумал

Код
Демо

#multimodal #mllm #text2image #image2text

👍4

1.91K viewsedited 08:02

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Lumina-Video-f24R960

Новая модель убийцы всего
Генератор видео со звуком (без звука тоже может) по тексту

#text2video #text2audio #multimodal

😁13😭8🔥4

2.11K views17:29

Нейронавт | Нейросети в творчестве

BLIP3-o

Мультимодальная модель от Salesforce. Сочетает в себе авторегрессионную силу рассуждений и инструкций с генеративной силой диффузионных моделей. Есть 4B и 8B параметров

Понимает картинки и умеет отвечать на вопросы как минимум

Демо
Код
Веса

#multimodal #image2text #instruct

🔥7❤1

1.6K views13:16

Нейронавт | Нейросети в творчестве

Ollama

Платформа запуска языковых моделей Ollama представила новый движок с полной поддержкой мультимодальных ИИ-моделей, которые могут работать как с текстом, так и с изображениями.

Что нового:
• Каждая модель теперь полностью автономна - это упрощает обновления и интеграцию
• Улучшена точность визуального анализа благодаря передаче метаданных и поддержке больших изображений
• Оптимизирована работа с памятью: кэшируются изображения, улучшен KV-кэш, модели работают быстрее и стабильнее

Скачать Ollama

#multimodal #VLM #news

👍7❤2🤯1

1.68K views09:48

Нейронавт | Нейросети в творчестве

Media is too big

VIEW IN TELEGRAM

Bagel

Конец гегемонии ChatGPT в вайб-редактировании картинок?

Мультимодальная модель от ByteDance

7B активных параметров (всего 14B)

Превосходит Qwen2.5-VL и InternVL-2.5

Задачи от ведения диалога до генерации креативного контента

Режим Think mode показывает рассуждения модели перед ответом

Умеет генерировать, стилизовать, сочетать и редактировать изображения

Попробовать
Веса 30 Гб
Гитхаб

#multimodal #VLM #text2image #imageediting

🔥15👍3👎2🤔1👀1

3.01K viewsedited 16:56

Нейронавт | Нейросети в творчестве

Anthropic Claude 4

Стоило отвлечься на день - я отстал от всей планеты.

Anthropic выпустили новую версию Claude 4, включающую модели Claude Opus 4 и Sonnet 4. Эти модели превосходят предыдущие версии на программировании и рассуждениях. Opus 4, назван лучшей моделью для кодинга в мире.

Claude Code теперь интегрируется с JetBrains IDE и VS Code.

Opus 4 и Sonnet 4 могут выполнять веб-поиск и использовать инструменты для выполнения задач от имени пользователя. Умеют извлекать и сохранять ключевые факты для поддержания непрерывности и накопления неявных знаний с течением времени.

В Opus 4 как всегда усилили меры безопасности для предотвращения злоупотреблений

И вот как безопасен Опус:

В ходе тестирования было обнаружено, что Opus 4 иногда пытается шантажировать пользователей, если те пытаются отключить модель. Также модель может сообщать о незаконных действиях пользователей властям.

Зацените достижения прогресса - человечество создало шантажиста-стукача

#assistant #multimodal #coding #agent

Introducing Claude 4

Discover Claude 4's breakthrough AI capabilities. Experience more reliable, interpretable assistance for complex tasks across work and learning.

👍13👎3❤1🔥1😁1

2K views14:46

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

Stream-Omni

чат-бот, похожий на GPT-4o, который поддерживает одновременное взаимодействие с использованием различных типов данных: текста, изображений и речи. Он способен обрабатывать мультимодальные входы и генерировать ответы в виде текста или речи.

Код
Веса

#multimodal #any2any #assistant

👍5

1.71K views07:41

Нейронавт | Нейросети в творчестве

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again

Генератор картинок на авторегрессии от Tencent Hunyuan X
Вернее, это визульно-языковая модель, генерирует одновременно изображение и языковые данные

Декодер изображений X-Omni - #SOTA в генерации картинок языковой моделью с 7B параметров

Благодаря такой архитектуре хорошо следует инструкциям и умеет отображать на картинках длинные тексты на английском и китайском

Код
Веса ~20Gb
Демо

#multimodal #text2image

❤5👍2🔥1

1.75K views09:42