Нейронавт | Нейросети в творчестве
9.43K subscribers
3.65K photos
3.15K videos
40 files
4.11K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
Kimi k1.5

Еще одна китайская рассуждалка, мультимодальная

Чат - непонятно какая тут версия, все на китайском, русский понимает, по ссылкам ходит

Гитхаб - здесь только технический отчет

#assistant #mllm #mlm #reasoning
👍5🔥2
Kimi k1.5

Похоже, китайская мультимодальная модель чуть обновилась

- Контекстное окно 200 тысяч токенов
- Готова переварить до 50 файлов
- Ищет в интернете. Пишут что на 1000+ сайтов - это подозрительно, что за поиск в интернете по всего 1000 сайтов?
- Поддерживает русский язык

Все пишут что она на уровне Open AI o1, но отчет, похоже, двухмесячной давности

Чат

#assistant #mllm #mlm #reasoning
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 2.0 Flash

В Gemini завезли обещанную еще в прошлом году нативную генерацию картинок самой языковой моделью. Можно не только создавать но и редактировать с попиксельной точностью

Заходим в AI Studio, выбираем Gemini 2.0 Flash Experimental, выбираем в Output format «Image and text»

#assistant #mlm #vlm #imageediting #text2image
👍7🤯2
Gemini Image Editing NextJS Quickstart

Официальный шаблон интеграции в ваш сервис редактора/генератора картинок Gemini 2.0 Flash

Вот например в Freepik уже прикручено

Демо, и даже без впн
Код

#assistant #mlm #vlm #imageediting #text2image
4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Grok Edit Image

Вслед за Gemini, в Grok добавили функцию редактирования картинок текстовыми указаниями

Идем в Grok, ищем кнопку Edit Image

#assistant #mlm #vlm #imageediting #text2image
🔥12👍5😭1
This media is not supported in your browser
VIEW IN TELEGRAM
FirePlace: Geometric Refinements of LLM Common Sense Reasoning for 3D Object Placement

Разработка DeepMind. Осмысленное размещение языковыми моделями объектов в 3D сцене с учётом геометрии и констрейнов

А я думал, Клод с MCP уже намного больше может

Кода нет

#mlm #assistant #3d
👍6
Llama 4 (скачать здесь, если осмелитесь)

Мета объявила новую эру мультимодальности
Новое семейство Llama из 3 моделей

У Llama 4 Scout контекст 10 миллионов токенов

Блог
Попробовать (притворитесь что вы не в РФ)

#assistant #news #mlm
1👍6🔥31
Liquid: Language Models are Scalable and Unified Multi-modal Generators

Единая языковая модель в качестве мультимодального генератора без костылей типа CLIP. В данном случае картинки/текст, 7B параметров

Код
Демо
Веса

#llm #mlm #text2image#image2text #text2text
🔥4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Jarvis Art

Фоторедактор от ByteDance и Ко

Построен на базе #MLM, имитирует работу профессиональных художников и координирует более 200 инструментов в Adobe Lightroom.
Превосходит GPT-4o по точности воспроизведения контента


Код ждем
Демо ждем

#imageediting
👍6🔥4😁2
Kimi K2

Новая версия китайской мультимодалки.

Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают

Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии:

Kimi-K2-Base: Базовая модель, с которой можно начинать работу исследователям и разработчикам, которым нужен полный контроль для точной настройки и создания пользовательских решений.

Kimi-K2-Instruct: модель после обучения, которая лучше всего подходит для работы с клиентами, общения в чате общего назначения и взаимодействия с агентами. Это модель рефлекторного уровня, о которой не нужно долго думать.

- Обрабатывает 100 тысяч строк данных за раз - Строит визуализации
- Создаёт игры в вебе, на создание клона Minecraft у Kimi K2 ушла одна попытка
- Планирует путешествия через 17 инструментов
- Токены в 5 раз дешевле чем у конкурентов

Уже на Perplexity
Хотя какая разница если можно пользоваться прямо на офсайте и в мобильном приложении

Мультимодальные функции пока не работают

Гитхаб
Веса - вам точно это надо?
Попробовать на офсайте - в левом нижнем углу переключаем на английский

На мобиле не факт что K2 уже есть, не проверял
AppStore
Android

#assistant #mllm #mlm #reasoning #mobile #ios
6👍1