🔍 o1-preview-level performance on AIME & MATH benchmarks.
💡 Transparent thought process in real-time.
🛠️ Open-source models & API coming soon!
🌐 You can try it now: http://chat.deepseek.com
#DeepSeek #llm
@opendatascience
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤4👍2
Forwarded from Machinelearning
Оказывается, вам просто нужно правильно стимулировать модель.
Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.
Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.
Похоже это будет эра LLM RL.
📕 Paper
#DeepSeek #deepseekv3 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍10❤4😁2
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Paper submitted by #DeepSeek team has generated significant attention in the AI community.
This work addresses the enhancement of reasoning capabilities in Large Language Models (LLMs) through the application of reinforcement learning techniques. The authors introduce a novel framework, DeepSeek-R1, which aims to improve LLM reasoning abilities by incorporating incentives for logical reasoning processes within their training. This integration of reinforcement learning allows LLMs to go beyond basic linguistic processing, developing sophisticated reasoning methods that can boost performance across a wide array of complex applications.
This approach has cause lots of discussions in different communities, but it definitely opens up the whole new direction of development for the research.
Source: https://arxiv.org/abs/2501.12948
#nn #LLM
@opendatascience
Paper submitted by #DeepSeek team has generated significant attention in the AI community.
This work addresses the enhancement of reasoning capabilities in Large Language Models (LLMs) through the application of reinforcement learning techniques. The authors introduce a novel framework, DeepSeek-R1, which aims to improve LLM reasoning abilities by incorporating incentives for logical reasoning processes within their training. This integration of reinforcement learning allows LLMs to go beyond basic linguistic processing, developing sophisticated reasoning methods that can boost performance across a wide array of complex applications.
This approach has cause lots of discussions in different communities, but it definitely opens up the whole new direction of development for the research.
Source: https://arxiv.org/abs/2501.12948
#nn #LLM
@opendatascience
👍24❤6
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 DeepSeek-V3-0324: мощное обновление DeepSeek
Китайская компания DeepSeek неожиданно представила новую версию своей модели — DeepSeek-V3-0324. Несмотря на скромное название "незначительного обновления", эта модель уже вызвала волну обсуждений благодаря своим впечатляющим характеристикам и демократичной цене. При этом разработчики не меняли базовую архитектуру, а лишь улучшили методы обучения!
👉 Кратко: Новая модель превосходит топовые западные аналоги (Claude-3.7-Sonnet, GPT-4.5) в математике и программировании, при этом стоимость её использования в разы ниже!
📊 Ключевые преимущества:
✔️ Улучшенная производительность в:
- Математических задачах (
- Программировании (
- Общих знаниях (
✔️ Новые возможности:
- Генерация сложных отчетов (до 3000 слов без потери качества)
- Улучшено форматирование ответов
- Улучшен вызов инструментов (tool calls)
✔️ Улучшения для разработчиков:
- Создает сложные веб-страницы (до 1000 строк кода за один проход)
- Пишет чистый HTML5, CSS и JavaScript с адаптивным дизайном
- Превращает короткие описания в работающие сайты
💡 Технические детали:
- Параметры модели: 660B (не 680B, как ошибочно предполагали)
- Лицензия: MIT (свободна для коммерческого использования)
- Работает даже на Mac Studio M3 Ultra (~20 токенов/сек)
🔗 Где попробовать?
Модель уже доступна на HuggingFace и официальной платформе.
#КитайскийИИ #КитайAI #DeepSeek #ИскусственныйИнтеллект #Программирование #OpenSource
🔥 DeepSeek-V3-0324: мощное обновление DeepSeek
Китайская компания DeepSeek неожиданно представила новую версию своей модели — DeepSeek-V3-0324. Несмотря на скромное название "незначительного обновления", эта модель уже вызвала волну обсуждений благодаря своим впечатляющим характеристикам и демократичной цене. При этом разработчики не меняли базовую архитектуру, а лишь улучшили методы обучения!
👉 Кратко: Новая модель превосходит топовые западные аналоги (Claude-3.7-Sonnet, GPT-4.5) в математике и программировании, при этом стоимость её использования в разы ниже!
📊 Ключевые преимущества:
✔️ Улучшенная производительность в:
- Математических задачах (
MATH-500, AIME 2024
)- Программировании (
LiveCodeBench
)- Общих знаниях (
MMLU-Pro
, GPQA
)✔️ Новые возможности:
- Генерация сложных отчетов (до 3000 слов без потери качества)
- Улучшено форматирование ответов
- Улучшен вызов инструментов (tool calls)
✔️ Улучшения для разработчиков:
- Создает сложные веб-страницы (до 1000 строк кода за один проход)
- Пишет чистый HTML5, CSS и JavaScript с адаптивным дизайном
- Превращает короткие описания в работающие сайты
💡 Технические детали:
- Параметры модели: 660B (не 680B, как ошибочно предполагали)
- Лицензия: MIT (свободна для коммерческого использования)
- Работает даже на Mac Studio M3 Ultra (~20 токенов/сек)
🔗 Где попробовать?
Модель уже доступна на HuggingFace и официальной платформе.
#КитайскийИИ #КитайAI #DeepSeek #ИскусственныйИнтеллект #Программирование #OpenSource
🔥11❤2
Forwarded from Китай.AI
🔮 CN-AI-RESEARCH | Исследования в области ИИ
🔥 DeepSeek только что выпустил новую статью о масштабировании во время инференса. Грядёт ли R2?
Исследователи из DeepSeek и Университета Цинхуа предложили инновационный подход Self-Principled Critique Tuning (SPCT), который значительно улучшает качество и адаптивность моделей вознаграждения для крупных языковых моделей (LLM).
📌 Ключевые моменты:
- Новый метод позволяет reward-моделям динамически генерировать критерии оценки во время работы
- Значительно превосходит существующие подходы по точности и масштабируемости
- Реализован в модели DeepSeek-GRM-27B на базе Gemma-2-27B
🔧 Как это работает?
1️⃣ Этап 1: Rejective Fine-Tuning — начальная "холодная" настройка модели
2️⃣ Этап 2: Rule-Based Online RL — постоянная оптимизация через генерацию принципов и критики
💡 Технические детали для специалистов:
- Используется мета-RM модель для фильтрации низкокачественных сэмплов
- KL-штраф с высоким коэффициентом предотвращает смещения
- Подход демонстрирует лучшую масштабируемость чем просто увеличение размера модели
🚀 Результаты:
- Превышение производительности моделей с 671B параметрами
- Лучшие показатели на тестах Reward Bench
- Возможность более точной и детальной оценки ответов LLM
Подробнее в оригинальной статье: Inference-Time Scaling for Generalist Reward Modeling
#КитайскийИИ #КитайAI #DeepSeek #RewardModeling #МашинноеОбучение #Нейросети
🔥 DeepSeek только что выпустил новую статью о масштабировании во время инференса. Грядёт ли R2?
Исследователи из DeepSeek и Университета Цинхуа предложили инновационный подход Self-Principled Critique Tuning (SPCT), который значительно улучшает качество и адаптивность моделей вознаграждения для крупных языковых моделей (LLM).
📌 Ключевые моменты:
- Новый метод позволяет reward-моделям динамически генерировать критерии оценки во время работы
- Значительно превосходит существующие подходы по точности и масштабируемости
- Реализован в модели DeepSeek-GRM-27B на базе Gemma-2-27B
🔧 Как это работает?
1️⃣ Этап 1: Rejective Fine-Tuning — начальная "холодная" настройка модели
2️⃣ Этап 2: Rule-Based Online RL — постоянная оптимизация через генерацию принципов и критики
💡 Технические детали для специалистов:
- Используется мета-RM модель для фильтрации низкокачественных сэмплов
- KL-штраф с высоким коэффициентом предотвращает смещения
- Подход демонстрирует лучшую масштабируемость чем просто увеличение размера модели
🚀 Результаты:
- Превышение производительности моделей с 671B параметрами
- Лучшие показатели на тестах Reward Bench
- Возможность более точной и детальной оценки ответов LLM
Подробнее в оригинальной статье: Inference-Time Scaling for Generalist Reward Modeling
#КитайскийИИ #КитайAI #DeepSeek #RewardModeling #МашинноеОбучение #Нейросети
arXiv.org
Inference-Time Scaling for Generalist Reward Modeling
Reinforcement learning (RL) has been widely adopted in post-training for large language models (LLMs) at scale. Recently, the incentivization of reasoning capabilities in LLMs from RL indicates...
❤3👍3🤡3
Forwarded from Китай.AI
🚀 DeepSeek и Пекинский университет получили «Лучшую статью ACL» за революционную технологию NSA!
Новое поколение ИИ от DeepSeek сможет обрабатывать длинные тексты в 11 раз быстрее без потери качества.
🔹 Что произошло?
На конференции ACL (главное событие в области NLP) объявили лучшую статью года — её авторами стали исследователи из DeepSeek и Пекинского университета. Их работа посвящена новой архитектуре внимания — Natively Sparse Attention (NSA).
🛠️ Проблема: Почему ИИ так плохо работает с длинными текстами?
Сейчас все крупные языковые модели используют механизм полного внимания (Full Attention), который:
- Сравнивает каждое новое слово со всеми предыдущими
- При длинных текстах требует огромных вычислительных ресурсов
- Замедляет работу и увеличивает стоимость API
⚡ Решение DeepSeek: Нативное разреженное внимание (NSA)
Технология имитирует то, как человек читает большие документы:
1️⃣ Сжатие токенов — группировка ранних частей текста как "конспекта глав"
2️⃣ Выбор ключевых фрагментов — точный анализ только релевантных участков
3️⃣ Скользящее окно — детальная обработка недавних данных
📊 Результаты тестов:
- Скорость генерации ответов: х11
- Скорость обучения: прямой проход х9, обратный х6
- Точность в тестах MMLU/GSM8K выше классических моделей
- 100% точность поиска информации в текстах до 64k токенов
💡 Что это даст пользователям?
- Можно будет загружать целые книги или наборы файлов
- Значительно более быстрые ответы
- Возможно снижение стоимости API
🧠 Технические детали
- Совместимость: GQA, FlashAttention-2, Triton
- Проверено на моделях 27B и MoE-архитектурах
- Полностью интегрировано в обучение (не только инференс)
🚀 Эта технология, вероятно, ляжет в основу следующего поколения моделей DeepSeek. Теперь остаётся ждать официального релиза R2!
📜 Читать статью на arXiv
#КитайскийИИ #КитайAI #DeepSeek
Новое поколение ИИ от DeepSeek сможет обрабатывать длинные тексты в 11 раз быстрее без потери качества.
🔹 Что произошло?
На конференции ACL (главное событие в области NLP) объявили лучшую статью года — её авторами стали исследователи из DeepSeek и Пекинского университета. Их работа посвящена новой архитектуре внимания — Natively Sparse Attention (NSA).
🛠️ Проблема: Почему ИИ так плохо работает с длинными текстами?
Сейчас все крупные языковые модели используют механизм полного внимания (Full Attention), который:
- Сравнивает каждое новое слово со всеми предыдущими
- При длинных текстах требует огромных вычислительных ресурсов
- Замедляет работу и увеличивает стоимость API
⚡ Решение DeepSeek: Нативное разреженное внимание (NSA)
Технология имитирует то, как человек читает большие документы:
1️⃣ Сжатие токенов — группировка ранних частей текста как "конспекта глав"
2️⃣ Выбор ключевых фрагментов — точный анализ только релевантных участков
3️⃣ Скользящее окно — детальная обработка недавних данных
📊 Результаты тестов:
- Скорость генерации ответов: х11
- Скорость обучения: прямой проход х9, обратный х6
- Точность в тестах MMLU/GSM8K выше классических моделей
- 100% точность поиска информации в текстах до 64k токенов
💡 Что это даст пользователям?
- Можно будет загружать целые книги или наборы файлов
- Значительно более быстрые ответы
- Возможно снижение стоимости API
🧠 Технические детали
- Совместимость: GQA, FlashAttention-2, Triton
- Проверено на моделях 27B и MoE-архитектурах
- Полностью интегрировано в обучение (не только инференс)
🚀 Эта технология, вероятно, ляжет в основу следующего поколения моделей DeepSeek. Теперь остаётся ждать официального релиза R2!
📜 Читать статью на arXiv
#КитайскийИИ #КитайAI #DeepSeek
🔥10❤2
Forwarded from Machinelearning
🐋 Гигантский кит приплыл к нам!
🚀 DeepSeek обновился до V3.1.
Следите за новостями, волна только набирает силу.
✨ Новый LLM: deepseek-ai/DeepSeek-V3.1-Base
⚡ 685B параметров
📏 Контекстное окно 128k
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
@ai_machinelearning_big_data
#DeepSeek #AI #LLM #V3_1 #MachineLearning
🚀 DeepSeek обновился до V3.1.
Следите за новостями, волна только набирает силу.
✨ Новый LLM: deepseek-ai/DeepSeek-V3.1-Base
⚡ 685B параметров
📏 Контекстное окно 128k
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
@ai_machinelearning_big_data
#DeepSeek #AI #LLM #V3_1 #MachineLearning
👍6🔥6❤3
Forwarded from Китай.AI
🔥 DeepSeek V3.1 и китайские чипы
Всего несколько слов в официальном комментарии DeepSeek вызвали резкий рост акций китайских производителей чипов и оживлённые дискуссии среди экспертов. Речь идёт о новой архитектуре UE8M0 FP8 и следующем поколении китайских ИИ чипов. Давайте разбираться, почему это важно.
🎯 Ключевые улучшения DeepSeek V3.1
• Гибридная архитектура: объединяет «мыслящие» и «немыслящие» режимы работы в единой структуре
• Эффективность: сокращение использования токенов на 20–50% при сохранении качества ответов
• Производительность: превосходит Claude 4 Opus в многозадачном программировании (Aider benchmark)
🧠 Что такое UE8M0 FP8?
FP8 (8-битный формат с плавающей точкой) — это современный стандарт для ускорения вычислений в глубоком обучении. Его преимущества:
• Экономия памяти: занимает в 4 раза меньше места, чем FP32
• Скорость: выше параллелизация вычислений (например, в 2 раза быстрее FP16 на NVIDIA Hopper)
• Точность: сохраняет точность полноразмерных форматов
UE8M0 — это специализированный вариант FP8, разработанный DeepSeek. Особенности:
• Только неотрицательные числа (оптимизация под активации)
• 8 бит полностью отведены под экспоненту (широкий динамический диапазон)
• Совместимость с микромасштабированием (compressed training)
🇨🇳 Поддержка китайских чипов
Новый формат разработан для совместимости с перспективными китайскими процессорами, в частности с Huawei Ascend (с поддержкой HiFloat8). Это может означать постепенный переход на полный стек китайских технологий — от железа до софта.
💎 Вывод
DeepSeek V3.1 демонстрирует не только конкурентные способности в задачах ИИ, но и стратегический шаг к созданию независимой экосистемы искусственного интеллекта в Китае.
Подробнее в оригинальной статье.
#КитайскийИИ #КитайAI #DeepSeek #Huawei
Всего несколько слов в официальном комментарии DeepSeek вызвали резкий рост акций китайских производителей чипов и оживлённые дискуссии среди экспертов. Речь идёт о новой архитектуре UE8M0 FP8 и следующем поколении китайских ИИ чипов. Давайте разбираться, почему это важно.
🎯 Ключевые улучшения DeepSeek V3.1
• Гибридная архитектура: объединяет «мыслящие» и «немыслящие» режимы работы в единой структуре
• Эффективность: сокращение использования токенов на 20–50% при сохранении качества ответов
• Производительность: превосходит Claude 4 Opus в многозадачном программировании (Aider benchmark)
🧠 Что такое UE8M0 FP8?
FP8 (8-битный формат с плавающей точкой) — это современный стандарт для ускорения вычислений в глубоком обучении. Его преимущества:
• Экономия памяти: занимает в 4 раза меньше места, чем FP32
• Скорость: выше параллелизация вычислений (например, в 2 раза быстрее FP16 на NVIDIA Hopper)
• Точность: сохраняет точность полноразмерных форматов
UE8M0 — это специализированный вариант FP8, разработанный DeepSeek. Особенности:
• Только неотрицательные числа (оптимизация под активации)
• 8 бит полностью отведены под экспоненту (широкий динамический диапазон)
• Совместимость с микромасштабированием (compressed training)
🇨🇳 Поддержка китайских чипов
Новый формат разработан для совместимости с перспективными китайскими процессорами, в частности с Huawei Ascend (с поддержкой HiFloat8). Это может означать постепенный переход на полный стек китайских технологий — от железа до софта.
💎 Вывод
DeepSeek V3.1 демонстрирует не только конкурентные способности в задачах ИИ, но и стратегический шаг к созданию независимой экосистемы искусственного интеллекта в Китае.
Подробнее в оригинальной статье.
#КитайскийИИ #КитайAI #DeepSeek #Huawei
👍4🔥2❤1
Forwarded from Machinelearning
🐋 DeepSeek-V3.1 теперь можно запускать локально
Оригинальная модель весила 715GB, но её удалось уменьшить до 170GB RAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF.
⚡ Огромная экономия памяти
👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1
👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF
Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀
@ai_machinelearning_big_data
#DeepSeek #GGUF
Оригинальная модель весила 715GB, но её удалось уменьшить до 170GB RAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF.
⚡ Огромная экономия памяти
👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1
👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF
Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀
@ai_machinelearning_big_data
#DeepSeek #GGUF
❤7👍5🔥3