Только что китайцы представили DeepEP — это библиотека, разработанная для оптимизации работы моделей с архитектурой Mixture-of-Experts (MoE) и параллелизмом экспертов (EP).
Ее основная задача — обеспечить высокую пропускную способность и низкую задержку при обмене данными между GPU, что критически важно для эффективного обучения и инференса крупных моделей.
Что внутри
Высокая производительность:
- Библиотека предоставляет оптимизированные all-to-all GPU ядра для операций распределения (dispatch) и объединения (combine) данных, что улучшает скорость и эффективность коммуникации между экспертами в модели.
- DeepEP поддерживает операции с пониженной точностью, включая формат FP8, что способствует снижению требований к памяти и увеличению скорости вычислений без значительной потери точности.
- Оптимизация под различные домены: В соответствии с алгоритмом группового ограниченного гейтинга, предложенным в работе DeepSeek-V3, библиотека предлагает набор ядер, оптимизированных для асимметричной передачи данных между различными доменами, такими как NVLink и RDMA. Это обеспечивает высокую пропускную способность при обучении и инференсе.
- Низкая задержка для инференса: Для задач, чувствительных к задержкам, DeepEP включает набор ядер с чистой RDMA, минимизируя задержки и обеспечивая быструю обработку данных во время инференса.
- Работает как с NVLink, так и с RDMA, что позволяет организовать высокопроизводительную связь между GPU как в рамках одного сервера, так и между разными серверами.
Принцип работы:
DeepEP интегрируется в существующие рабочие процессы обучения и инференса моделей с архитектурой MoE, предоставляя эффективные механизмы для обмена данными между GPU. Используя оптимизированные коммуникационные ядра, библиотека обеспечивает быструю и надежную передачу данных, что особенно важно при работе с крупными моделями и распределенными системами. Поддержка операций с пониженной точностью и оптимизация под различные домены позволяют гибко настраивать систему под конкретные требования и аппаратные возможности.
Использование DeepEP способствует повышению эффективности и производительности моделей MoE, облегчая их масштабирование и ускоряя процессы обучения и инференса.
▪ Github
@ai_machinelearning_big_data
#ai #deepseek #opensource #DeepEP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44🔥16❤8
Проект написан на CUDA и рассчитан исключительно на использование тензорных ядер архитектуры NVIDIA Hopper, что уже само по себе делает его очень современным
В основе DeepGEMM лежит идея максимально эффективного выполнения операций умножения матриц с использованием 8-битной точности.
Для решения проблемы накопления в FP8 (которое может давать неточные результаты) разработчики внедрили двухуровневое накопление, которое использует возможности CUDA-ядра для повышения точности без потери производительности.
Что действительно радует – это минимализм кода.
✔ Ядро библиотеки представлено всего в одном ключевом модуле, состоящем примерно из 300 строк, что позволяет легко разобраться в его работе и даже внести собственные улучшения.
При этом все ядра компилируются «на лету» с помощью легковесного JIT-компилятора, так что нет долгого этапа сборки при установке.
DeepGEMM поддерживает разные режимы работы: обычные GEMM для плотных моделей, а также группированные операции для моделей типа Mix-of-Experts, где требуется обрабатывать данные в нескольких форматах – как в «континуальном», так и в «masked» виде. Это особенно актуально для современных решений в области глубокого обучения.
Оптимизации, заложенные в DeepGEMM, включают использование новых функций Hopper, таких как Tensor Memory Accelerator (TMA) для асинхронной передачи данных, а также тонкую настройку блоковых размеров и оптимизацию инструкций FFMA для лучшего перекрытия вычислений и загрузки данных. Результаты говорят сами за себя: производительность этой библиотеки на ряде тестовых примеров сравнима или даже превосходит решения, построенные на базе CUTLASS.
DeepGEMM – это лаконичный и эффективный инструмент, который может послужить отличной базой для исследований и практических разработок в области ускорения вычислений для глубокого обучения.
▪ Github
#ai #deepseek #opensource #DeepEP #OpenSourceWeek:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍22❤16🥰2😴1
С 26 февраля Advanced Voice на базе GPT-4o mini доступна бесплатным пользователям ChatGPT на всех платформах.
Free tier имеет ежедневные ограничения на использование входных и выходных аудиоданных. Пользователи ChatGPT Plus могут использовать полную версию Advanced Voice на основе GPT-4o с дневным лимитом, который в 5 раз превышает лимит бесплатной версии, и могут продолжать использовать функции видео и демонстрации экрана в расширенном голосовом режиме. Подписчики ChatGPT Pro не имеют дневного лимита.
OpenAI в X
Microsoft открыла всем пользователям бесплатный доступ к функциям «Think Deeper» и голосовому управлению Copilot, а также снимет предыдущие ограничения на использование для бесплатных пользователей. Это означает, что пользователи могут вести неограниченное количество "бесед" и голосовых взаимодействий с Copilot. Think Deeper работает на основе модели логического вывода OpenAI o1, которую Microsoft сделала бесплатной в прошлом месяце.
microsoft.com
Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.
Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.
В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai
DeepSeek объявил о введении скидок до 75% на использование своих AI-моделей в непиковые часы. Это решение может оказать давление на конкурентов как в Китае, так и за рубежом, вынуждая их пересматривать свои ценовые стратегии. Согласно информации на сайте компании, в период с 16:30 до 00:30 по Гринвичу стоимость использования API DeepSeek будет значительно снижена. Для моделей R1 и V3 скидки составят 75% и 50% соответственно.
reuters.com
Samsung выпустит первую потребительскую серию PCIe 5.0 SSD 9100 Pro в марте. Впервые среди NVMe SSD от Samsung в линейке будет модель с 8 ТБ (ожидается, что будет доступен во второй половине 2025 года). В спецификации M.2 предусмотрены две дополнительные версии с радиатором или без него, с тремя конфигурациями: 1 ТБ (199,99 долл. США), 2 ТБ (299,99 долл. США) и 4 ТБ (549,99 долл. США).
Серия 9100 Pro демонстрирует значительные улучшения: в ней используется специализированный контроллер и флэш-память V-NAND TLC 7-го поколения. В синтетических тестах скорости последовательного чтения и записи достигают 14,8 ГБ/с и 13,4 ГБ/с, что вдвое больше, чем у предыдущего поколения 980 Pro и примерно на 2–3 ГБ/с быстрее, чем у конкурирующих продуктов, а производительность случайного чтения и записи улучшена до 2200 тыс./2600 тыс. IOPS, что более чем 2х превышает показатели PCIe 4.0.
news.samsung.com
Hf
@ai_machinelearning_big_data
#news #ai #ml #microsoft #openai #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39❤15🔥11
DeepSeek представили Fife-Flyer File System (3FS) – параллельную файловую систему, способную использовать всю пропускную способность современных SSD и RDMA-сетей.
• 6.6 TiB/s – суммарная скорость чтения в 180-узловом кластере
• 3.66 TiB/min – пропускная способность на GraySort в 25-узловом кластере
• 40+ GiB/s – пик производительности KVCache lookup на одном клиентском узле
Архитектура 3FS дезагрегирована и обеспечивает строгую согласованность, что делает её незаменимой для задач предварительной обработки данных, загрузки датасетов, сохранения контрольных точек и быстрого поиска эмбеддингов во время инференса (V3/R1).
Показатели 3FS демонстрируют, что будущее обработки данных лежит в использовании распределенных и дезагрегированных архитектур, где каждая компонента системы работает на максимуме своих возможностей.
В дополнение к Fife-Flyer File System, представлен Smallpond – фреймворк для обработки данных на базе этой системы, который помогает ещё больше упростить рабочие процессы с большими объёмами информации.
▪3FS → github.com/deepseek-ai/3FS
▪Smallpond → github.com/deepseek-ai/smallpond
@ai_machinelearning_big_data
#OpenSourceWee #DeepSeek #Smallpond #3FS #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥23❤8👻2👏1😁1
🚀 6 День недели опенсорса: DeepSeek-V3/R1 Inference System!
DeepSeek выкатил подробный обзор своего инференса для моделей DeepSeek-V3/R1 – с акцентом на архитектурные инновации и невероятную экономическую эффективность.
DeepSeq R1 ежедневно приносит более $560 000, причем затраты на GPU составляют всего $87 000. Что озночает рентабельность в 545 %.
При таких расчетах теоретическая годовая выручка могла бы превысить $200 млн.
Компания также отметила, что затраты на обучение моделей составили менее $6 млн. Для сравнения, американские конкуренты, такие как OpenAI, инвестируют миллиарды долларов в обучение ИИ с использованием чипов NVIDIA H100. DeepSeek использует менее мощные NVIDIA H800, но это не мешает её моделям успешно конкурировать на глобальном рынке.
Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с
Разительный контраст с американскими конкурентами, работающими в убыток.
Такой уровень доходности достигается за счёт оптимизированного распределения вычислений и гибкой архитектуры.
🌟 В DeepSeek-V3/R1 используется Cross-node Expert Parallelism (EP) — метод, при котором модель делится между GPU-узлами, а каждая видеокарта обрабатывает лишь небольшую часть модели. Эксперты распределяются между узлами кластера, что снижает нагрузку на память GPU, увеличивает размер батча и позволяет равномерно загружать видеокарты, избегая простоев. Это ускоряет вычисления и минимизирует задержки.
🌟 Для обработки данных DeepSeek-V3/R1 использует двухфазную стратегию инференса.
1) Prefilling фаза — здесь bспользуется EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего эксперта, что позволяет минимизировать расходы на обработку данных.
2) Для Decoding используется EP144, перераспределяющий нагрузку так, что каждый GPU управляет 2 направляемыми экспертами и 1 общим экспертом. Такая стратегия помогает достичь высокой производительности без потери качества ответа.
– ~73.7k токенов/с для prefilling
– ~14.8k токенов/с для декодинга на одном узле H800
Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с
🔗 Подробнее: *клик*
@ai_machinelearning_big_data
#AI #DeepLearning #DeepSeek #ml #opensource
DeepSeek выкатил подробный обзор своего инференса для моделей DeepSeek-V3/R1 – с акцентом на архитектурные инновации и невероятную экономическую эффективность.
DeepSeq R1 ежедневно приносит более $560 000, причем затраты на GPU составляют всего $87 000. Что озночает рентабельность в 545 %.
При таких расчетах теоретическая годовая выручка могла бы превысить $200 млн.
Компания также отметила, что затраты на обучение моделей составили менее $6 млн. Для сравнения, американские конкуренты, такие как OpenAI, инвестируют миллиарды долларов в обучение ИИ с использованием чипов NVIDIA H100. DeepSeek использует менее мощные NVIDIA H800, но это не мешает её моделям успешно конкурировать на глобальном рынке.
Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с
Разительный контраст с американскими конкурентами, работающими в убыток.
Такой уровень доходности достигается за счёт оптимизированного распределения вычислений и гибкой архитектуры.
1) Prefilling фаза — здесь bспользуется EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего эксперта, что позволяет минимизировать расходы на обработку данных.
2) Для Decoding используется EP144, перераспределяющий нагрузку так, что каждый GPU управляет 2 направляемыми экспертами и 1 общим экспертом. Такая стратегия помогает достичь высокой производительности без потери качества ответа.
– ~73.7k токенов/с для prefilling
– ~14.8k токенов/с для декодинга на одном узле H800
Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с
@ai_machinelearning_big_data
#AI #DeepLearning #DeepSeek #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤32👍22🔥10👏1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ DeepSeek V3 strikes again!
На HF Появилась новая версия DeepSeek v3.
Еще Deepseek обновили свое приложение.
Страданиям OPENAI не будет конца 😂
~700GB, Лицензирование: mit, тестим тут.
Вы можете запустить его на компьютере M3 Mac Studio с 512 ГБ памяти, ( ~10 000 долларов) если используете квантованную версию на 352 ГБ через MLX.
🟡 HF :https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main
@ai_machinelearning_big_data
#deepseek
На HF Появилась новая версия DeepSeek v3.
Еще Deepseek обновили свое приложение.
Страданиям OPENAI не будет конца 😂
~700GB, Лицензирование: mit, тестим тут.
Вы можете запустить его на компьютере M3 Mac Studio с 512 ГБ памяти, ( ~10 000 долларов) если используете квантованную версию на 352 ГБ через MLX.
@ai_machinelearning_big_data
#deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91❤25🤣14🔥12🤷♂2
This media is not supported in your browser
VIEW IN TELEGRAM
Сгенерировал парочку простеньких HTML-игр с интерфейсом, работает годно.
@ai_machinelearning_big_data
#deepseek #vibecoding #app
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥108👍34❤18😁9🤩2😨1
Команда DeepSeek представила DeepSeek-GRM (Generalist Reward Modeling) - новую систему для моделирования вознаграждения (RM), цель которой - улучшить согласованность LLM с общими запросами (general query alignment).
DeepSeek-GRM предлагает новый масштабируемый способ построения более надежных и универсальных систем вознаграждения.
DeepSeek-GRM-27B с масштабированием во время инференса показывает SOTA (или близкие к SOTA) результаты на RM бенчмарках, будучи при этом эффективнее по параметрам, чем гигантские модели, и имея меньше проблем с систематическими ошибками.
LLM-as-a-Judge показывает схожие показатели, но с более низкой производительностью.
Это интересный вектор развития RM, переносящий часть "интеллекта" оценки на этап инференса для повышения качества моделей.
#LLM #AI #MachineLearning #RewardModeling #DeepSeek #ReinforcementLearning #NLP #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥16❤7🤬1
DeepSeek объявила о публикации в открытый доступ кода своего механизма инференса, построенного на vLLM. Компания будет предоставлять отдельные функции и оптимизации из своей внутренней инфраструктуры, специально разработанные для ее моделей DeepSeek-V3 и R1.
Этот шаг - часть стратегии поддержки будущих моделей с доступом к улучшениям в сообществе разработчиков с открытым исходным кодом. Кроме того, DeepSeek опубликовала дорожную карту, в которой подробно описана стратегия использования открытого кода и планы сотрудничества с существующими оперсорс-проектами для расширения экосистемы инфраструктуры ИИ.
@ai_machinelearning_big_data
#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤85👍40🔥16🤔5
🚀Масштабная архитектура на базе, которая содержит 671 млрд параметров, что в 96 раз больше, чем у предыдущей версии Prover-V1.5 (7 млрд).
Построен на базе архитектуры «смеси экспертов» (MoE), что снижает затраты на обучение и повышает эффективность решения задач.
Модель заточена на формальное доказательство теорем с помощью языка программирования Lean 4, обеспечивая 100% логическую точность.
Lean 4 — это зависимо типизированный функциональный язык программирования и интерактивное средство доказательства теорем.
Результаты:
• Новая Sota( 88,9%) на MiniF2F-test.
• DeepSeek-Prover-V2 смогла доказать 49 теорем из 658.
Для тренировки использовались 8 млн синтетических примеров, созданных через рекурсивный поиск решений теорем.
🔍 Как это работает:
1) Разложение теорем: DeepSeek-V3 по prompt'у разбивает сложные задачи на подцели.
2) Формализация: Пошаговые рассуждения переводятся в доказательства на Lean 4.
3) Cold-start: Полученные цепочки рассуждений и формальные доказательства используются как начальные данные для обучения модели.
• 7 B — базовый вариант.
• 671 B — расширенная версия на базе DeepSeek-V3-Base.
https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B
@ai_machinelearning_big_data
#DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89🔥36❤21👌5😍5
Главное:
• Глубокое рассуждение — на уровне моделей Google
• Улучшена генерация текста — более естественно, структурировано и аккуратно
• Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно
• Может работать над одной задачей 30–60 минут, удерживая контекст
Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench.
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
@ai_machinelearning_big_data
#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍101🔥35❤24😁9🥱5❤🔥4🙈1🎄1
🐋 Гигантский кит приплыл на HF!
🚀 DeepSeek раскатывает Base релиз новой версии V3.1 — гибридной модели, способной совмещать рассуждения и быстрые задачи.
Следите за новостями, волна только набирает силу.
⚡ 685B параметров
📏 Контекстное окно 128k
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
@ai_machinelearning_big_data
#DeepSeek #AI #LLM #V3_1 #MachineLearning
🚀 DeepSeek раскатывает Base релиз новой версии V3.1 — гибридной модели, способной совмещать рассуждения и быстрые задачи.
Следите за новостями, волна только набирает силу.
⚡ 685B параметров
📏 Контекстное окно 128k
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
@ai_machinelearning_big_data
#DeepSeek #AI #LLM #V3_1 #MachineLearning
🔥97❤25👍23🐳5😨5🎉1
🐋 DeepSeek-V3.1 теперь можно запускать локально
Оригинальная модель весила 715GB, но её удалось уменьшить до 170GB RAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF.
⚡ Огромная экономия памяти
👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1
👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF
Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀
@ai_machinelearning_big_data
#DeepSeek #GGUF
Оригинальная модель весила 715GB, но её удалось уменьшить до 170GB RAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF.
⚡ Огромная экономия памяти
👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1
👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF
Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀
@ai_machinelearning_big_data
#DeepSeek #GGUF
❤115🔥48🤣45👍24🤔8🌚4☃2🙈2