Технозаметки Малышева
5.96K subscribers
3.02K photos
1.01K videos
38 files
3.25K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
加入频道
Создание AI чат-бота на домашнем ПК с новой моделью LLaMA

Большие языковые модели (LLM) открывают двери для создания человекоподобных текстов.
LangChain - это инструментарий для разработки AI приложений, включая чат-ботов.
LLaMA от Meta AI устанавливается локально и обеспечивает обработку языка на процессорах обычных компьютеров.
Использование квантования позволяет моделям LLM функционировать на менее мощной технике.
Через фреймворк LangChain и Streamlit реализуется интерфейс для диалоговых ботов с интуитивной работой с текстами.

Детальный гайд по установке AI помощника на локальном ПК.

#LangChain #LLaMA #AI
Llama-3-8B с увеличенным контекстом

Gradient AI представила модель Llama-3-8B-Instruct-262k, увеличивающую длину контекста до 160k токенов. 🦙
Обучение велось на расширенных данных SlimPajama с использованием EasyContext Blockwise RingAttention. 🧩

Предобучение Llama 3 проводилось на 15 триллионах токенов из открытых источников. 📚

Локальную Лламу 3 на 8B c 160K контекстного окна не хотите?

#Llama #Gradient
-------
@tsingular
1-4.gif
10.9 MB
MiniCPM-Llama3-V 2.5: GPT-4V уровня на телефоне, переплюнул проприетарных конкурентов

OpenBMB представляет MiniCPM-Llama3-V 2.5 (8B) и MiniCPM-V 2.0 (2B) - мультимодальные языковые модели для понимания изображений и текста.
MiniCPM-Llama3-V 2.5 превосходит GPT-4V, Gemini Pro и Claude 3 по общей производительности и эффективно разворачивается на мобильных устройствах.
Модель обладает продвинутым OCR, обработкой изображений до 1,8 млн пикселей, поддержкой 30+ языков и низким уровнем галлюцинаций.
MiniCPM-V 2.0 обходит Yi-VL 34B, CogVLM-Chat 17B и Qwen-VL-Chat 10B, имея всего 2B параметров.
Эта модель также поддерживает обработку картинок высокого разрешения и двуязычные мультимодальные возможности (английский, китайский).

Интересное кино. Смотрим тесты, качаем, проверяем.
Локальное WebUI демо:
https://github.com/OpenBMB/MiniCPM-V?tab=readme-ov-file#webui-demo


#OpenBMB #multimodal #Llama
-------
@tsingular
Разработка приложений с LLM: практическое введение

Этот курс охватывает ключевые термины и концепции разработки приложений с большими языковыми моделями (LLM).
Рассматриваются варианты запуска моделей, форматы, квантование, fine-tuning.
Особое внимание уделяется llama.cpp и llama-cpp-python как инструментам для изучения.
Описывается создание чат-бота с использованием Chat Completions, ролей и системных запросов.
Приводятся примеры кода и идеи для экспериментов.

Хороший старт для тех, кто хочет погрузиться в разработку с LLM. 🚀

#LLM #ChatCompletions #llama
-------
@tsingular
AWS запускает Llama 3.1 на новых чипах Trainium и Inferentia

AWS анонсировала поддержку моделей Llama 3.1 на своих специализированных AI-чипах.
Семейство включает многоязычные модели размером 8B, 70B и 405B с контекстом до 128k токенов.
Llama 3.1 405B - крупнейшая публично доступная открытая LLM.
Доступна в Amazon Bedrock, EC2, SageMaker и Hugging Face.
Для файн-тюнинга предлагается библиотека NeuronX Distributed.
Развертывание возможно с использованием vLLM на Trainium/Inferentia.

Одновременно о поддержке Llama 3.1 объявил и Google:

Google Cloud добавляет семейство моделей Llama 3.1 от Meta в Vertex AI Model Garden.
Пользователи могут дообучать модели на собственных данных.
Платформа обеспечивает автоматическое масштабирование и оплату по мере использования.
Поддерживаются Llama Guard и встроенные меры безопасности Google Cloud.

#AWS #Google #Llama
-------
@tsingular
И еще в копилку разбора Llama 3.1 иллюстрация от Daniel Han из unsloth.ai:

1. 15.6T tokens, Tools & Multilingual
2. Llama arch + new RoPE
3. fp16 & static fp8 quant for 405b
4. Dedicated pad token
5. <|python_tag|><|eom_id|> for tools?
6. Roberta to classify good quality data
7. 6 staged 800B tokens long context expansion


1. Новый метод расширения RoPE.
Использует интересный низкий и высокий коэффициент масштабирования и масштабирует вектор inv_freq — его можно вычислить за 1 проход, поэтому нет необходимости в динамических повторных вычислениях. Использовался 6-этапный подход к увеличению количества токенов с 8 000 до 128 000 с использованием токенов 800B.

2. Обучение
От 38% до 43% MFU с использованием bfloat16. Используется конвейерный параллелизм + FSDP. Усреднение модели для этапов RM, SFT и DPO.

3. Смесь данных
50% общие знания
25% математика и рассуждения
17% кодируют данные и задачи
8% многоязычных данных

4. Этапы предварительной обработки
Использует Roberta, DistilRoberta, fasttext для фильтрации данных хорошего качества. Множество средств дедупликации и эвристики для удаления неверных данных.

5. Квантование с fp8
Квантует веса до fp8 и ввод до fp8, затем умножает на коэффициенты масштабирования. fp8 x fp8, тогда выход будет bf16. Быстрее для вывода и меньше использования VRAM.

6. Эксперименты со зрением и речью
Команда Llama 3.1 также обучила адаптеры зрения и речи — правда, не выпущенные, но очень крутые!

#llama #unsloth
———
@tsingular
Forwarded from Machinelearning
🌟 Meta-Llama-3.1-405B-Instruct-FP8: FP8-версии Llama-3.1-405B-Instruct со статическим и динамическим методом квантования.

Компания Neural Magic представила две квантованные FP8-версии модели Meta's Llama 3.1 405B Instruct:

🟢Meta-Llama-3.1-405B-Instruct-FP8-dynamic
🟢Meta-Llama-3.1-405B-Instruct-FP8

Примененная оптимизация уменьшает количество бит на параметр с 16 до 8, сокращая требования к VRAM примерно на 50 %. FP8-модель может быть развернута помощью одного узла 8xH100 GPU.

Процесс квантования применялся исключительно к весам и активациям линейных операторов внутри блоков трансформеров. Использовалось симметричное поканальное квантование, которое включает линейное масштабирование по выходному измерению для отображения представлений FP8 квантованных весов и активаций.
Кроме того, активации квантованы динамически на основе каждого токена.
Для квантования использовалась библиотека оптимизации LLM Compressor с набором 512 последовательностей UltraChat.

Обе FP8 модели сохраняют архитектуру Meta-Llama-3.1 и могут быть запущены на бэкенде vLLM.

В бенчмарке OpenLLM версия FP8-dynamic получила средний балл 86,55. Это максимально близко к результату оригинальной модели - 86,63 (99,91%).

🟡Модель FP8-dynamic на HF
🟡Модель FP8 на HF


@ai_machinelearning_big_data

#AI #ML #LLM #Llama #FP8
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
SambaNova бьёт рекорды скорости с Llama 3.1

Компания SambaNova Systems установила рекорд производительности на модели Llama 3.1 405B, достигнув 123 токенов в секунду.

Это в 4 раза быстрее ближайших конкурентов благодаря инновационному ASIC-чипу SN40L.

На Llama 3.1 8B система генерирует свыше 1000 токенов в секунду.

Платформа предлагает корпорациям возможность развертывания приватных GPT-моделей с раз дешевле.

https://fast.snova.ai/

Интересный конкурент Groq.
У Groq, кстати 405B пока нет.
API, правда по запросу.

Headquartered in Palo Alto, California, SambaNova Systems was founded in 2017 by industry luminaries, and hardware and software design experts from Sun/Oracle and Stanford University.

Investors include SoftBank Vision Fund 2, funds and accounts managed by BlackRock, Intel Capital, GV, Walden International, Temasek, GIC, Redline Capital, Atlantic Bridge Ventures, Celesta, and several others.

#SambaNova #Llama #ASIC
👍2
You.com добавил Llama 3.1 405B
Бесплатно без VPN

#youcom #Llama
------
@tsingular
🔥1
NVIDIA допилили Llama: выпустили Nemotron-51B

NVIDIA представила Llama 3.1-Nemotron-51B - оптимизированную версию Llama-3.1-70B.

Новый подход - Neural Architecture Search (NAS) позволил создать модель, обеспечивающую в 2.2 раза более быстрый инференс.

Меньше жрёт память, что позволяет запускать в 4 раза больше задач на одном GPU (рекомендован H100 80Gb).

Есть версия Llama-3.1-Nemotron-40B-Instruct для диалогов.

Попробовать можно тут:
https://build.nvidia.com/nvidia/llama-3_1-nemotron-51b-instruct

В этот раз ставка сделана на скорость, при сохранении результата. Даже в части тестов получается на 1-2% слабее Llama 3.1 70B.
Ну и H100 80Gb не в каждом гараже, конечно, есть пока.

#NVIDIA #Llama #Nemotron
-------
@tsingular