Forwarded from Китай.AI
Китайский гигант ByteDance выпускает мощную open-source модель Seed-OSS на 36 миллиардов параметров
Компания, стоящая за TikTok, сделала крупный шаг в мире открытого ИИ. Их команда Seed представила Seed-OSS-36B — семейство из трех моделей с уникальной технологией управления «бюджетом» вычислений. Это прямой ответ на стратегию OpenAI с её GPT-OSS.
Ключевые особенности, которые выделяют Seed-OSS на фоне других:
🚀 Невероятно длинный контекст: 512K токенов (~1600 страниц текста)
Это в 4 раза больше, чем у последней версии DeepSeek V3.1 (128K). Важно, что такая длина была заложена сразу на этапе предобучения, а не достигнута позже искусственными методами. Это открывает двери для анализа огромных юридических документов, длинных отчетов и сложного кода.
💡 Новая функция: «Бюджет размышлений» (Thinking Budget)
Пользователь может сам задать лимит токенов, которые модель потратит на решение задачи. Для простых вопросов — малый бюджет и быстрый ответ. Для сложных вычислений или генерации кода — большой бюджет для глубоких раздумий. Модель буквально ведет внутренний диалог, отслеживая, сколько «мыслей» уже использовано.
Технические детали:
• Три модели: две базовые (с синтетическими данными и без) и одна инструктивная.
• Архитектура: Плотная (dense) модель на 36B параметров, не Mixture-of-Experts (MoE)
• Ключевые технологии: RoPE, GQA, RMSNorm, SwiGLU
• Слои: 64 | Hidden Size: 5120 | Размер словаря: 155K
• Объем обучающих данных: 12Т токенов (меньше, чем у многих аналогов ~15T+)
• Лицензия: Apache-2.0 (можно использовать бесплатно, в т.ч. коммерчески)
Результаты бенчмарков впечатляют:
• MMLU-Pro: 65.1 (Qwen2.5-32B: 58.5)
• BBH (логика): 87.7 (новый рекорд для open-source)
• GSM8K (математика): 90.8
• HumanEval (код): 76.8
Модель уже доступна для загрузки и экспериментов.
GitHub | Hugging Face
#КитайскийИИ #КитайAI #OpenSource #LLM #SeedOSS #ByteDance #ИскусственныйИнтеллект
Компания, стоящая за TikTok, сделала крупный шаг в мире открытого ИИ. Их команда Seed представила Seed-OSS-36B — семейство из трех моделей с уникальной технологией управления «бюджетом» вычислений. Это прямой ответ на стратегию OpenAI с её GPT-OSS.
Ключевые особенности, которые выделяют Seed-OSS на фоне других:
🚀 Невероятно длинный контекст: 512K токенов (~1600 страниц текста)
Это в 4 раза больше, чем у последней версии DeepSeek V3.1 (128K). Важно, что такая длина была заложена сразу на этапе предобучения, а не достигнута позже искусственными методами. Это открывает двери для анализа огромных юридических документов, длинных отчетов и сложного кода.
💡 Новая функция: «Бюджет размышлений» (Thinking Budget)
Пользователь может сам задать лимит токенов, которые модель потратит на решение задачи. Для простых вопросов — малый бюджет и быстрый ответ. Для сложных вычислений или генерации кода — большой бюджет для глубоких раздумий. Модель буквально ведет внутренний диалог, отслеживая, сколько «мыслей» уже использовано.
Технические детали:
• Три модели: две базовые (с синтетическими данными и без) и одна инструктивная.
• Архитектура: Плотная (dense) модель на 36B параметров, не Mixture-of-Experts (MoE)
• Ключевые технологии: RoPE, GQA, RMSNorm, SwiGLU
• Слои: 64 | Hidden Size: 5120 | Размер словаря: 155K
• Объем обучающих данных: 12Т токенов (меньше, чем у многих аналогов ~15T+)
• Лицензия: Apache-2.0 (можно использовать бесплатно, в т.ч. коммерчески)
Результаты бенчмарков впечатляют:
• MMLU-Pro: 65.1 (Qwen2.5-32B: 58.5)
• BBH (логика): 87.7 (новый рекорд для open-source)
• GSM8K (математика): 90.8
• HumanEval (код): 76.8
Модель уже доступна для загрузки и экспериментов.
GitHub | Hugging Face
#КитайскийИИ #КитайAI #OpenSource #LLM #SeedOSS #ByteDance #ИскусственныйИнтеллект
GitHub
GitHub - ByteDance-Seed/seed-oss
Contribute to ByteDance-Seed/seed-oss development by creating an account on GitHub.
👍9🔥2