Machinelearning

⚡️

Arcee: Семейство merdge-моделей от сервиса arcee.ai

Arcee.ai - сервис, основанный в сентябре 2023 года ( Mark McQuade, Jacob Solawetz и Brian Benedict), который предоставляет услуги тренинга LLM для корпоративных клиентов.

Сервисом представлены в открытом доступе 2 новые модели: Arcee-Scribe и Arcee-Nova.

✔️

Arcee-Scribe (7.74B) - это универсальная модель чата, ориентированная на рассуждения, решение творческих задач и написание текстов.
Модель представляет собой слияние InternLM-2.5-chat с пользовательской InternLM finetune, включающей как общие, так и специфические для письма данные.

Возможности и примеры использования:

🟢role-play диалоги с подтекстом и сложными эмоциями;
🟢объяснение сложных идей с помощью творческих аналогий;
🟢создание историй с нелинейным повествованием или уникальной перспективой и сложной повествовательной структурой;
🟢решение бизнес-задач: создание контента, описание продукции, коммуникация с потребителями, брейнстрорминг.

Модель набрала 48.5 балла в AGI-Eval, 60.1 в BIG Bench Hard и 69.4 в GPT 4ALL бенчмарках.
Это лучший показатель по сравнению с Llama-3-8B-Instuct по всем тестам и Mistral-7B-Instruct v03 в двух из трех.

Модель представлена в квантованиях (GGUF) от 2Bit (Q2 - 2.78GB) до 32bit (F32 - 31Gb) и
в Transformers

✔️

Arcee-Nova (72.7B) - высокопроизводительная мультиязычная модель с широким спектром языковых задач. Nova - это объединение Qwen2-72B-Instruct с собственной моделью, настроенной на смеси обобщенных данных.

Возможности и примеры использования:

🟠решение сложных задач, логические выводы и рассуждения;
🟠создание увлекательного и оригинального текстового контента в различных жанрах;
🟠помощь в решении задач программирования, от создания кода до его отладки;
🟠общее понимание языка, создание человекоподобных текстов в различных контекстах.
🟠решение бизнес-задач: создание контента, разработка программного обеспечения, коммуникация с потребителями, анализ данных и построение отчетов, исследования и гипотезы, анализ документов и проверка соответствия нормативным требованиям, адаптивные системы обучения и интеллектуальные обучающие программы.

Модель показала лучшие результаты (43.68) в совокупности тестов ( IFEval, BBH, MATH Lvl 5, GPQA, MUSR и MMLU-PRO) по сравнению с Qwen2-72B-Instruct, OrcaMini_V7-72B, LLama-3-70B-Instruct-DPO-v2.0 и другими моделями.

Модель представлена в квантованиях (GGUF) от 1Bit (Q1 - 24GB) до 16bit (F32 - 145Gb) и
в Transformers

📌Лицензирование Arcee-Scribe

Для некоммерческих проектов - Apache2.0
Для коммерческого использования: - через подачу заявки у InternLM

📌Лицензирование Arcee-Nova

Для некоммерческих проектов - свободно, тип не определен.
Для коммерческого использования: - симметрично Qwen2-72B

🟡

Страница проекта

🟡

Модели Arcee-Scribe

🟡

Модели Arcee-Nova

🟡

Demo Arcee-Nova

@ai_machinelearning_big_data

#AI #LLM #GGUF #ML #ArceeNova #ArceeScribe

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23🔥5🥰5

9.3K views14:33

Machinelearning

Lite-Oute-1: семейство компактных base и instruct моделей

Oute AI представила в открытом доступе модели на 300М, 150M и 65М параметров в base и instruct вариантах и в GGUF-формате. Список релиза:

🟠Lite-Oute-1-300M Base
🟠Lite-Oute-1-300M-Instruct
🟠Lite-Oute-1-300M Base GGUF
🟠Lite-Oute-1-300M-Instruct GGUF
🟠Lite-Mistral-150M-v2-Instruct
🟠Lite-Mistral-150M-v2-Instruct GGUF
🟠Lite-Oute-1-65M Base
🟠Lite-Oute-1-65M-Instruct
🟠Lite-Oute-1-65M Base GGUF
🟠Lite-Oute-1-65M-Instruct GGUF

Lite-Oute-1-300M: "старшая" модель семейства на архитектуре Mistral с 300М параметров и контекстом в 4096 токенов. Эта модель специально разработана в качестве отправной точки для тонкой настройки при выполнении различных задач. Она обеспечивает баланс между компактными размерами и возможностями.
Некоторые оценки 0-shot: MMLU - 24.87, Winogrande- 53.35, OpenBookQA - 30.80

Lite-Oute-1-300M Base GGUF: диапазон квантования от FP16 (600 МВ) до Q2_K (176 MB), всего 15 вариаций.

Lite-Oute-1-300M-Instruct: instruct-версия 300М Base с теми же параметрами. Модель использует шаблон ChatML.
Некоторые оценки 0-shot: MMLU - 24.00, Winogrande- 53.75, OpenBookQA - 32.20

Lite-Oute-1-300M-Instruct GGUF: диапазон квантования от FP16 (600 МВ) до Q2_K(176 MB), всего 15 вариаций.
Модель использует шаблон ChatML

Lite-Mistral-150M-v2-Instruct: модель на основе архитектуры Mistral, включающая около 157М параметров. Основной целью создания этой модели была разработка компактной и эффективной модели, способной работать на широком спектре устройств, сохраняя при этом разумный уровень функциональности и согласованности для своего небольшого размера. Модель была обучена на ~ 8 миллиардах токенов.
Некоторые оценки 0-shot: MMLU - 25.28, Winogrande- 51.78, OpenBookQA - 28.40
⚠️ Модель чувствительна к используемому шаблону чата, уточните его на странице модели на HF.

Lite-Mistral-150M-v2-Instruct GGUF: диапазон квантования от FP16 (314 МВ) до Q2_K (68.5 MB), всего 15 вариаций.
⚠️ Модель чувствительна к используемому шаблону чата, уточните его на странице модели на HF.

Lite-Oute-1-65M Base: экспериментальная ультракомпактная базовая модель, построенная на архитектуре LLaMA и содержащая около 65М параметров.
Эта модель предназначена в качестве отправной точки для тонкой настройки под узкоспециальные задачи. Из-за своего чрезвычайно малого размера эта модель имеет базовые возможности генерации текста, но испытывает трудности с инструкциями или поддержанием связности тем.
Некоторые оценки 0-shot: MMLU - 23.05, Winogrande- 51.70, OpenBookQA - 27.60

Lite-Oute-1-65M Base GGUF: диапазон квантования от FP16 (131 МВ) до Q2_K (31.5 MB), всего 15 вариаций.

Lite-Oute-1-65M-Instruct: instruct-версия 65М Base с теми же параметрами.
Некоторые оценки 0-shot: MMLU - 23.45, Winogrande- 50.04, OpenBookQA - 28.60.
Модель использует шаблон ChatML.

Lite-Oute-1-65M-Instruct GGUF: диапазон квантования от FP16 (131 МВ) до Q2_K(31.5 MB), всего 15 вариаций.
Модель использует шаблон ChatML

🟡

Страница проекта

🟡

Все модели на HF

@ai_machinelearning_big_data

#AI #TinyLM #ML #OuteAI #GGUF

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤16🥰3⚡1

10.6K views10:03

Machinelearning

⚡️ Gemma 2 2B: Релиз набора моделей и открытый набор автоэнкодеров к семейству Gemma

Спустя месяц после выхода Gemma 2 компания Google расширила набор моделей Gemma, добавив в него следующие новинки:

🟢

Gemma-2-2B;

🟢

Gemma-2-2b-it;

🟢

Gemma-2-2b-pytorch;

🟢

Gemma-2-2b-it-pytorch;

🟢

🟢

🟢

🟢

🟢

🟠

Gemma Scope для всех плотностей семейства Gemma.

✔️Gemma - это семейство легких современных открытых моделей от Google, созданных на основе тех же исследований и технологий, которые использовались при создании моделей Gemini. Это большие языковые модели, работающие только с декодером, доступные на английском языке, с открытыми весами как для предварительно обученных вариантов, так и для вариантов, настроенных по инструкции.

В этом релизе представлена версия Gemma 2 с параметрами 2.6B (базовая и instruct, версии GGUF и pytorch), как дополнение к вариантам 9B и 27B.
Gemma 2 2B имеет ту же архитектуру, что и другие модели семейства Gemma 2, и использует такие технические возможности, как sliding attention и logit soft-capping.

*️⃣Модели Gemma-2-2B можно запускать с помощью библиотеки Transformers и llama.cpp. GGUF-версии совместимы с llama.cpp, Ollama и LM Studio.

Gemma 2 2B была оценена на ряде тестов: BBH, IFEval, MATH Hard, GPQA, MuSR и MMLU-Pro. Результаты показали, что Gemma 2 2B превосходит другие модели того же размера в задачах, связанных с знаниями и инструкциями.
Кроме того, модель Gemma 2 2B может быть использована для ассистировании генерации текста, что позволит ускорить генерацию текста в 3 раза без потери качества.

✔️

ShieldGemma - это серия моделей модерации безопасного контента, построенных на основе Gemma 2, которые нацелены на несколько категорий цензурирования (включая откровенно сексуальный, опасный контент, ненависть или преследование).
Это крупные модели, работающие по принципу "текст в текст", только с декодером, доступные на английском языке, с открытыми весами и в 3 вариантах:
с параметрами 2B, 9B и 27B.
ShieldGemma предназначена для обнаружения нецензурных запросов к LLM, а также предотвращения таких же ответов от LLM. Краткая инструкция про составлению промпта.
Вы можете использовать его в качестве инструмента модерации в публичных развертываниях LLM, независимо от того, какую LLM вы развертываете.

✔️

Gemma Scope - это открытый набор sparse autoencoders (SAE), обученных на каждом слое моделей Gemma 2 2B и 9B.
SAE - это новая техника, направленная на поиск интерпретируемых направлений в больших языковых моделях. Набор можно рассматривать как своеобразный "микроскоп", помогающий нам разложить внутренние активации модели на основополагающие понятия, подобно тому, как биологи используют микроскопы для изучения отдельных клеток растений и животных. Этот подход был использован при создании Golden Gate Claude, популярной исследовательской демоверсии от Anthropic, которая изучала интерпретируемость и активацию функций в Claude.

Поскольку SAE - это инструмент с выученными весами для интерпретации языковых моделей, а не сами языковые модели, их можно запустить с помощью SAELens, популярной библиотеки для обучения, анализа и интерпретации sparse autoencoders .
Чтобы узнать больше об использовании, ознакомьтесь с подробным руководством по работе с блокнотом Google Colab.

🟡

Страница релиза на HF

🟡

Семейство Gemma Scope на HF

🟡

Gemma Scope technical report

🟡

Семейство Gemma 2 2B на HF

🟡

Семейство ShieldGemma на HF

@ai_machinelearning_big_data

#AI #Gemma2 #ML #LLM #GGUF

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23❤7🔥5⚡1

8.46K views18:21

Machinelearning

⚡️

GGUF-версии GPT-OSS от Unsloth.

Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса.

🟡

Оптимальный сетап:

🟢20B работает со скоростью более 10 токенов/с при полной точности на 14 ГБ оперативной памяти.

🟢120B с полной точностью будет давать >40 токенов/с на примерно 64 ГБ ОЗУ.

Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее.

GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT.

Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini.

Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM.

📌 Подробная пошаговая инструкция по локальному запуску и файнтюну - в документации Unsloth.

🟡

Набор моделей

🟡

Документация

@ai_machinelearning_big_data

#AI #ML #GPTOSS #GGUF #Unsloth

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍105❤42🔥17😁4❤‍🔥1👌1

28.9K views11:34

Machinelearning

🐋 DeepSeek-V3.1 теперь можно запускать локально

Оригинальная модель весила 715GB, но её удалось уменьшить до 170GB RAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF.

⚡ Огромная экономия памяти

👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1
👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF

Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀

@ai_machinelearning_big_data

#DeepSeek #GGUF

❤114🔥48🤣44👍24🤔8🌚4☃2🙈2

37K viewsedited 15:51

About

Blog

Apps

Platform