Machinelearning

⚡️

ModernBERT: новое и улучшенное поколение BERT.

ModernBERT - улучшенная и переработанная на уровне архитектуры модель, основанная на достижениях BERT, которая в 2-4 раза быстрее, чем DeBERTa и RoBERTa.

Модель позиционируется как преемник BERT и совместима с большинством инструментов, при этом не использует token type IDs, что упрощает ее использование.

ModernBERT доступна в двух вариантах:

🟢

base с 22 слоями и 149 млн. параметров;

🟢

large с 28 слоями и 395 млн. параметров.

Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста.

Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания.

Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет.

ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов.

Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования.

Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large .

⚠️ ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков

📌Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Набор моделей

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #ModernBERT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM