Machinelearning

⚡️ Gemma 2 2B: Релиз набора моделей и открытый набор автоэнкодеров к семейству Gemma

Спустя месяц после выхода Gemma 2 компания Google расширила набор моделей Gemma, добавив в него следующие новинки:

🟢

Gemma-2-2B;

🟢

Gemma-2-2b-it;

🟢

Gemma-2-2b-pytorch;

🟢

Gemma-2-2b-it-pytorch;

🟢

🟢

🟢

🟢

🟢

🟠

Gemma Scope для всех плотностей семейства Gemma.

✔️Gemma - это семейство легких современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались при создании моделей Gemini. Это большие языковые модели, работающие только с декодером, доступные на английском языке, с открытыми весами как для предварительно обученных вариантов, так и для вариантов, настроенных по инструкции.

В этом релизе представлена версия Gemma 2 с параметрами 2.6B (базовая и instruct, версии GGUF и pytorch), как дополнение к вариантам 9B и 27B.
Gemma 2 2B имеет ту же архитектуру, что и другие модели семейства Gemma 2, и использует такие технические возможности, как sliding attention и logit soft-capping.

*️⃣Модели Gemma-2-2B можно запускать с помощью библиотеки Transformers и llama.cpp. GGUF-версии совместимы с llama.cpp, Ollama и LM Studio.

Gemma 2 2B была оценена на ряде тестов: BBH, IFEval, MATH Hard, GPQA, MuSR и MMLU-Pro. Результаты показали, что Gemma 2 2B превосходит другие модели того же размера в задачах, связанных с знаниями и инструкциями.
Кроме того, модель Gemma 2 2B может быть использована для ассистировании генерации текста, что позволит ускорить генерацию текста в 3 раза без потери качества.

✔️

ShieldGemma - это серия моделей модерации безопасного контента, построенных на основе Gemma 2, которые нацелены на несколько категорий цензурирования (включая откровенно сексуальный, опасный контент, ненависть или преследование).
Это крупные модели, работающие по принципу "текст в текст", только с декодером, доступные на английском языке, с открытыми весами и в 3 вариантах:
с параметрами 2B, 9B и 27B.
ShieldGemma предназначена для обнаружения нецензурных запросов к LLM, а также предотвращения таких же ответов от LLM. Краткая инструкция про составлению промпта.
Вы можете использовать его в качестве инструмента модерации в публичных развертываниях LLM, независимо от того, какую LLM вы развертываете.

✔️

Gemma Scope - это открытый набор sparse autoencoders (SAE), обученных на каждом слое моделей Gemma 2 2B и 9B.
SAE - это новая техника, направленная на поиск интерпретируемых направлений в больших языковых моделях. Набор можно рассматривать как своеобразный "микроскоп", помогающий нам разложить внутренние активации модели на основополагающие понятия, подобно тому, как биологи используют микроскопы для изучения отдельных клеток растений и животных. Этот подход был использован при создании Golden Gate Claude, популярной исследовательской демоверсии от Anthropic, которая изучала интерпретируемость и активацию функций в Claude.

Поскольку SAE - это инструмент с выученными весами для интерпретации языковых моделей, а не сами языковые модели, их можно запустить с помощью SAELens, популярной библиотеки для обучения, анализа и интерпретации sparse autoencoders .
Чтобы узнать больше об использовании, ознакомьтесь с подробным руководством по работе с блокнотом Google Colab.

🟡

Страница релиза на HF

🟡

Семейство Gemma Scope на HF

🟡

Gemma Scope technical report

🟡

Семейство Gemma 2 2B на HF

🟡

Семейство ShieldGemma на HF

@ai_machinelearning_big_data

#AI #Gemma2 #ML #LLM #GGUF

Please open Telegram to view this post

VIEW IN TELEGRAM