Нейронавт | Нейросети в творчестве
9.29K subscribers
3.57K photos
3.07K videos
40 files
4.04K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus
加入频道
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 1.5

Новая мультимодалка от Google, круче чем Gemini Ultra (то версия 1.0)

- В основе совет экспертов (MoE).
- Может работать с контекстами длиной 1M токенов, что на порядок больше чем у конкурентов. Это примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.
- Токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.
- Доступ только у избранных

Посмотрите как она выполняет задания на 44-минутном фильме Бастера Китона. Думаю, схитрили, там разрешение видео небольшое

#MoE #multimodal #VLM #assistant
👍5🔥3
DeepSeek V3

Крупнейшая модель в опенсорсе, конкурирует с Sonnet 3.5 и GPT-4o. Превосходит Llama 405B. Особенно хорош в кодинге и математике.

Архитектурно - совет экспертов, рассуждающие модели еще не превзошел

Уже на Чатбот арене

HF
Чат

#assistant #moe
9
Dubao-1.5-pro

ByteDance выпустили своего убийцу o1

Рассуждающая #VLM, с голосовым режимом.
По архитектуре - совет экспертов (#MOE)

Какие языки знает - неизвестно

ссылок на репо не нашел. Ждем на арене что ли

#news #voicemode
👍2
Media is too big
VIEW IN TELEGRAM
Qwen2.5-Max

Новая флагманская LLM от Alibaba, совет экспертов.
Превосходит DeepSeek v3 по циферкам бенча

Чат - не забудьте выбрать Qwen2.5-Max

#assistant #MOE
🔥4
HiDream-I1

Новый опенсорсный китайский генератор картинок на совете экспертов (#MoE)

Ест 16Гб на самом деле 61Гб

Демо - пожатая модель
Код
Веса

#text2image
5
Qwen 3

Alibaba выпустили две #MoE-модели (совет экспертов) и шесть Dense models (плотные модели), размером от 0.6B до 235B параметров.

Qwen3-30B-A3B, например, превосходит QwQ-32B, при количестве параметров в 10 раз меньше.

Все модели поддерживают два режима: с рассуждениями и без. Режим размышления активируется при обработке сложных задач

Поддерживает 119 языков, включая русский.

Попробовать
Гитхаб
HF
GGUF зоопарк

#assistant
👍8🔥4
Baidu выпустили в опенсорс семейство моделей ERNIE 4.5

#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.

Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)

Попробовать
Веса
Гитхаб
AI Studio

#assistant #reasoning #VLM
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan-A13B

Новая LLM от Hunyuan / Tencent
Архитектура совет экспертов (#MoE)

Оптимизирована на агентские задачи
Контекст 256K

13 B активных параметров из общего числа в 80 B

Поддержка гибридного рассуждения: позволяет выбирать между быстрым и медленным режимами мышления

Попробовать где-то здесь
API
HF
Гитхаб

#assistant #agent #reasoning
7👍4
Kimi K2

Новая версия китайской мультимодалки.

Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают

Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии:

Kimi-K2-Base: Базовая модель, с которой можно начинать работу исследователям и разработчикам, которым нужен полный контроль для точной настройки и создания пользовательских решений.

Kimi-K2-Instruct: модель после обучения, которая лучше всего подходит для работы с клиентами, общения в чате общего назначения и взаимодействия с агентами. Это модель рефлекторного уровня, о которой не нужно долго думать.

- Обрабатывает 100 тысяч строк данных за раз - Строит визуализации
- Создаёт игры в вебе, на создание клона Minecraft у Kimi K2 ушла одна попытка
- Планирует путешествия через 17 инструментов
- Токены в 5 раз дешевле чем у конкурентов

Уже на Perplexity
Хотя какая разница если можно пользоваться прямо на офсайте и в мобильном приложении

Мультимодальные функции пока не работают

Гитхаб
Веса - вам точно это надо?
Попробовать на офсайте - в левом нижнем углу переключаем на английский

На мобиле не факт что K2 уже есть, не проверял
AppStore
Android

#assistant #mllm #mlm #reasoning #mobile #ios
6👍1
Нейронавт | Нейросети в творчестве
Kimi K2 Новая версия китайской мультимодалки. Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии: Kimi-K2-Base: Базовая…
Qwen3-235B-A22B-Instruct-2507

Недолго музыка Kimi K2 играла
Новая версия не-ризонинг модели Qwen3-235B-A22B возглавила олимп. Ну может и не возглавила но побила DeepSeek V3, Claude 4 Opus Non-thinking и Kimi K2 на многих задачах

Архитектура - совет экспертов.
Рассуждалку ждем

Чат
Веса

#assistant #moe
👍13
Qwen 3 Coder

Еще один релиз Qwen, на этот раз для программизма.
Кодит на уровне Sonnet 4 ю

Архитектура #MoE
480B параметров, 35В активных.
Контекст – 256к, скейлится до 1 миллиона токенов.

Бонусом выпустили инструмент командной строки для агентного кодинга Qwen Code - форк Gemini Code

Попробовать

#coding #agent
🔥7👍3😱1
WAN 2.2

Опубликовали 6 моделей
t2v и i2v
5B и 14B

Внедрили совет экспертов (#MoE). А я ванговал что ЛЛМные фишки будут везде.
Это увеличивает общую производительность модели при сохранении тех же вычислительных затрат.

Из пока понятного мне умеет

- генерировать видео в кинематографическом стиле — с учётом освещения, композиции и других деталей;

- создавать сложные движения в видео;

- работать на обычных RTX 4090;

- выдавать видео в разрешении 720p с частотой 24 кадра в секунду.

#text2video #image2video
3👍1🔥1