Data Science by ODS.ai 🦜
46.1K subscribers
663 photos
77 videos
7 files
1.75K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
加入频道
Forwarded from Machinelearning
🌟 Branch-Train-MiX: метод получения MoE-модели

Метод Branch-Train-MiX создает MoE-модель из dense-модели. Суть заключается в том, чтобы взять несколько одинаковых LLM, параллельно обучить их на разных датасетах и агрегировать предсказания каждой модели во время инференса.

После обучения все модели предлагается слить в MoE, чтобы FNN каждой базовой модели стал экспертом в соответствующем слое, и добавить роутер.


🟡 Страница проекта
🟡 Разбор метода


@ai_machinelearning_big_data

#MoE #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥3
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая

🔥 Qwen3: новый уровень открытых ИИ-моделей от Alibaba!


Китайский гигант Alibaba представил третье поколение своей флагманской ИИ-серии Qwen — мощные языковые модели с полностью открытой лицензией Apache 2.0.

📌 Основные модели серии:
Qwen3-235B-A22B (флагман) — 235 млрд параметров с 22 млрд активных - конкурирует с Grok-3 и Gemini Pro
Qwen3-30B-A3B — в 10x эффективнее аналогов при 3 млрд активируемых параметров
• 6 Dense-моделей (0.6B–32B) с полным открытым исходным кодом

💡 Ключевые инновации:
→ Режимы "Размышление/Без размышления" для баланса скорости и качества ответов
→ Поддержка 119 языков (рекорд среди открытых моделей)
→ Улучшенные возможности для работы с агентами и MCP
→ В 2x больше данных для обучения vs Qwen2.5 (36 трлн токенов)
→ Экономичность: запуск полной модели требует всего 4 видеокарты H20, а использование видеопамяти на 66% меньше, чем у аналогов
Qwen3-0.6B можно запустить даже на смартфоне!

Онлайн-демо |
HuggingFace |
ModelScope |
GitHub

Для развертывания разработчики рекомендуют использовать SGLang и vLLM, для локального применения — Ollama или LMStudio.

Подробнее в блоге разработчиков

💡 Интересный факт!
📊 С выпуском Owen 3, Qwen стал самым крупным семейством открытых моделей в мире опередив Llama:
Свыше 200 моделей
Более 300 млн загрузок
100 000+ производных архитектур

#КитайскийИИ #КитайAI #OpenSource #MoE #AlibabaQwen #ЯзыковыеМодели
3🔥2👍1
Forwarded from Китай.AI
🔮 CN-AI-RESEARCH | Исследования в области ИИ

🚀 Qwen3: представлен полный технический отчет


Китайская команда представила технический отчет по семейству моделей Qwen3.

📊 Состав семейства:
✔️ 6 плотных моделей (0.6B–32B параметров)
✔️ 2 MoE-модели (30B и 235B параметров)

💡 Двойной режим работы
Qwen3 использует интеллектуальную систему переключения между:
Режимом глубокого анализа (для сложных задач)
Режимом быстрого ответа (для простых запросов)

Автоматическое переключение происходит через параметр thinking budget, который оценивает сложность вопроса.

💡 Ключевые инновации:
• Динамическое распределение thinking budget (вычислительных ресурсов) в зависимости от сложности задачи
• Устранение QKV-смещения и внедрение QK-Norm для стабильности обучения
• Новый подход к балансировке нагрузки экспертов в MoE-архитектуре

🎓 Трехэтапное обучение:

1. Базовые знания (обычные тексты, 4k токенов)
2. Улучшение логики (STEM/код, 4k токенов)
3. Длинные тексты (спецкорпус, 32k токенов)

Отчет также раскрывает метод "большой учит маленького":
- Off-policy дистилляция ("заучивание" ответов учителя)
- On-policy дистилляция ("разбор ошибок" после попыток)

Полный отчет

#КитайскийИИ #КитайAI #Qwen3 #MoE #Дистилляция
1