287K subscribers
3.98K photos
686 videos
17 files
4.55K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
⚡️ ModernBERT: новое и улучшенное поколение BERT.

ModernBERT - улучшенная и переработанная на уровне архитектуры модель, основанная на достижениях BERT, которая в 2-4 раза быстрее, чем DeBERTa и RoBERTa.

Модель позиционируется как преемник BERT и совместима с большинством инструментов, при этом не использует token type IDs, что упрощает ее использование.

ModernBERT доступна в двух вариантах:

🟢base с 22 слоями и 149 млн. параметров;
🟢large с 28 слоями и 395 млн. параметров.

Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста.

Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания.

Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет.

ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов.

Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования.

Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large .

⚠️ ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ModernBERT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥115🤨3