Нейронавт | Нейросети в творчестве

1:42

Media is too big

Dubao-1.5-pro

ByteDance выпустили своего убийцу o1

Рассуждающая #VLM, с голосовым режимом.
По архитектуре - совет экспертов (#MOE)

Какие языки знает - неизвестно

ссылок на репо не нашел. Ждем на арене что ли

#news #voicemode

👍2

1.79K views12:34

1:18

Media is too big

Qwen2.5-Max

Новая флагманская LLM от Alibaba, совет экспертов.
Превосходит DeepSeek v3 по циферкам бенча

Чат - не забудьте выбрать Qwen2.5-Max

#assistant #MOE

🔥4

1.93K viewsedited 07:29

HiDream-I1

Новый опенсорсный китайский генератор картинок на совете экспертов (#MoE)

Ест ~~16Гб~~ на самом деле 61Гб

Демо - пожатая модель
Код
Веса

#text2image

❤5

2.04K viewsedited 07:27

Qwen 3

Alibaba выпустили две #MoE-модели (совет экспертов) и шесть Dense models (плотные модели), размером от 0.6B до 235B параметров.

Qwen3-30B-A3B, например, превосходит QwQ-32B, при количестве параметров в 10 раз меньше.

Все модели поддерживают два режима: с рассуждениями и без. Режим размышления активируется при обработке сложных задач

Поддерживает 119 языков, включая русский.

Попробовать
Гитхаб
HF
GGUF зоопарк

#assistant

👍8🔥4

2.09K views05:05

Baidu выпустили в опенсорс семейство моделей ERNIE 4.5

#SOTA на текстовых и мультимодальных бенчмарках:
— следование инструкциям,
— запоминание фактов,
— визуальное понимание,
— мультимодальные рассуждения.

Опубликовано всего 23 модели ERNIE 4.5 от компактнойdense‑версии с 0.3B параметров до старшей модели с 424B параметров (#MoE)

Попробовать
Веса
Гитхаб
AI Studio

#assistant #reasoning #VLM

👍6

1.75K viewsedited 13:49

1:28

Hunyuan-A13B

Новая LLM от Hunyuan / Tencent
Архитектура совет экспертов (#MoE)

Оптимизирована на агентские задачи
Контекст 256K

13 B активных параметров из общего числа в 80 B

Поддержка гибридного рассуждения: позволяет выбирать между быстрым и медленным режимами мышления

Попробовать где-то здесь
API
HF
Гитхаб

#assistant #agent #reasoning

❤7👍4

1.75K viewsedited 13:16

0:45

0:15

0:15

Kimi K2

Новая версия китайской мультимодалки.

Пишут что убийца cHatGPT и DeepSeek, но как всегда преувеличивают

Архитертура #MoE, Триллион параметров, из них 32B активных. Заточена на агентные и программерские задачи. Есть две версии:

Kimi-K2-Base: Базовая модель, с которой можно начинать работу исследователям и разработчикам, которым нужен полный контроль для точной настройки и создания пользовательских решений.

Kimi-K2-Instruct: модель после обучения, которая лучше всего подходит для работы с клиентами, общения в чате общего назначения и взаимодействия с агентами. Это модель рефлекторного уровня, о которой не нужно долго думать.

- Обрабатывает 100 тысяч строк данных за раз - Строит визуализации
- Создаёт игры в вебе, на создание клона Minecraft у Kimi K2 ушла одна попытка
- Планирует путешествия через 17 инструментов
- Токены в 5 раз дешевле чем у конкурентов

Уже на Perplexity
Хотя какая разница если можно пользоваться прямо на офсайте и в мобильном приложении

Мультимодальные функции пока не работают

Гитхаб
Веса - вам точно это надо?
Попробовать на офсайте - в левом нижнем углу переключаем на английский

На мобиле не факт что K2 уже есть, не проверял
AppStore
Android

#assistant #mllm #mlm #reasoning #mobile #ios

❤6👍1

1.82K views12:11

Qwen3-235B-A22B-Instruct-2507

Недолго музыка Kimi K2 играла
Новая версия не-ризонинг модели Qwen3-235B-A22B возглавила олимп. Ну может и не возглавила но побила DeepSeek V3, Claude 4 Opus Non-thinking и Kimi K2 на многих задачах

Архитектура - совет экспертов.
Рассуждалку ждем

Чат
Веса

#assistant #moe

👍13

1.52K views06:13

0:12

Qwen 3 Coder

Еще один релиз Qwen, на этот раз для программизма.
Кодит на уровне Sonnet 4 ю

Архитектура #MoE
480B параметров, 35В активных.
Контекст – 256к, скейлится до 1 миллиона токенов.

Бонусом выпустили инструмент командной строки для агентного кодинга Qwen Code - форк Gemini Code

Попробовать

#coding #agent

🔥7👍3😱1

1.57K views07:11