Создание AI чат-бота на домашнем ПК с новой моделью LLaMA
Большие языковые модели (LLM) открывают двери для создания человекоподобных текстов.
LangChain - это инструментарий для разработки AI приложений, включая чат-ботов.
LLaMA от Meta AI устанавливается локально и обеспечивает обработку языка на процессорах обычных компьютеров.
Использование квантования позволяет моделям LLM функционировать на менее мощной технике.
Через фреймворк LangChain и Streamlit реализуется интерфейс для диалоговых ботов с интуитивной работой с текстами.
Детальный гайд по установке AI помощника на локальном ПК.
#LangChain #LLaMA #AI
Большие языковые модели (LLM) открывают двери для создания человекоподобных текстов.
LangChain - это инструментарий для разработки AI приложений, включая чат-ботов.
LLaMA от Meta AI устанавливается локально и обеспечивает обработку языка на процессорах обычных компьютеров.
Использование квантования позволяет моделям LLM функционировать на менее мощной технике.
Через фреймворк LangChain и Streamlit реализуется интерфейс для диалоговых ботов с интуитивной работой с текстами.
Детальный гайд по установке AI помощника на локальном ПК.
#LangChain #LLaMA #AI
Llama-3-8B с увеличенным контекстом
Gradient AI представила модель Llama-3-8B-Instruct-262k, увеличивающую длину контекста до 160k токенов. 🦙
Обучение велось на расширенных данных SlimPajama с использованием EasyContext Blockwise RingAttention. 🧩
Предобучение Llama 3 проводилось на 15 триллионах токенов из открытых источников. 📚
Локальную Лламу 3 на 8B c 160K контекстного окна не хотите?
#Llama #Gradient
-------
@tsingular
Gradient AI представила модель Llama-3-8B-Instruct-262k, увеличивающую длину контекста до 160k токенов. 🦙
Обучение велось на расширенных данных SlimPajama с использованием EasyContext Blockwise RingAttention. 🧩
Предобучение Llama 3 проводилось на 15 триллионах токенов из открытых источников. 📚
Локальную Лламу 3 на 8B c 160K контекстного окна не хотите?
#Llama #Gradient
-------
@tsingular
1-4.gif
10.9 MB
MiniCPM-Llama3-V 2.5: GPT-4V уровня на телефоне, переплюнул проприетарных конкурентов
OpenBMB представляет MiniCPM-Llama3-V 2.5 (8B) и MiniCPM-V 2.0 (2B) - мультимодальные языковые модели для понимания изображений и текста.
MiniCPM-Llama3-V 2.5 превосходит GPT-4V, Gemini Pro и Claude 3 по общей производительности и эффективно разворачивается на мобильных устройствах.
Модель обладает продвинутым OCR, обработкой изображений до 1,8 млн пикселей, поддержкой 30+ языков и низким уровнем галлюцинаций.
MiniCPM-V 2.0 обходит Yi-VL 34B, CogVLM-Chat 17B и Qwen-VL-Chat 10B, имея всего 2B параметров.
Эта модель также поддерживает обработку картинок высокого разрешения и двуязычные мультимодальные возможности (английский, китайский).
Интересное кино. Смотрим тесты, качаем, проверяем.
Локальное WebUI демо:
https://github.com/OpenBMB/MiniCPM-V?tab=readme-ov-file#webui-demo
#OpenBMB #multimodal #Llama
-------
@tsingular
OpenBMB представляет MiniCPM-Llama3-V 2.5 (8B) и MiniCPM-V 2.0 (2B) - мультимодальные языковые модели для понимания изображений и текста.
MiniCPM-Llama3-V 2.5 превосходит GPT-4V, Gemini Pro и Claude 3 по общей производительности и эффективно разворачивается на мобильных устройствах.
Модель обладает продвинутым OCR, обработкой изображений до 1,8 млн пикселей, поддержкой 30+ языков и низким уровнем галлюцинаций.
MiniCPM-V 2.0 обходит Yi-VL 34B, CogVLM-Chat 17B и Qwen-VL-Chat 10B, имея всего 2B параметров.
Эта модель также поддерживает обработку картинок высокого разрешения и двуязычные мультимодальные возможности (английский, китайский).
Интересное кино. Смотрим тесты, качаем, проверяем.
Локальное WebUI демо:
https://github.com/OpenBMB/MiniCPM-V?tab=readme-ov-file#webui-demo
#OpenBMB #multimodal #Llama
-------
@tsingular
Разработка приложений с LLM: практическое введение
Этот курс охватывает ключевые термины и концепции разработки приложений с большими языковыми моделями (LLM).
Рассматриваются варианты запуска моделей, форматы, квантование, fine-tuning.
Особое внимание уделяется llama.cpp и llama-cpp-python как инструментам для изучения.
Описывается создание чат-бота с использованием Chat Completions, ролей и системных запросов.
Приводятся примеры кода и идеи для экспериментов.
Хороший старт для тех, кто хочет погрузиться в разработку с LLM. 🚀
#LLM #ChatCompletions #llama
-------
@tsingular
Этот курс охватывает ключевые термины и концепции разработки приложений с большими языковыми моделями (LLM).
Рассматриваются варианты запуска моделей, форматы, квантование, fine-tuning.
Особое внимание уделяется llama.cpp и llama-cpp-python как инструментам для изучения.
Описывается создание чат-бота с использованием Chat Completions, ролей и системных запросов.
Приводятся примеры кода и идеи для экспериментов.
Хороший старт для тех, кто хочет погрузиться в разработку с LLM. 🚀
#LLM #ChatCompletions #llama
-------
@tsingular
AWS запускает Llama 3.1 на новых чипах Trainium и Inferentia
AWS анонсировала поддержку моделей Llama 3.1 на своих специализированных AI-чипах.
Семейство включает многоязычные модели размером 8B, 70B и 405B с контекстом до 128k токенов.
Llama 3.1 405B - крупнейшая публично доступная открытая LLM.
Доступна в Amazon Bedrock, EC2, SageMaker и Hugging Face.
Для файн-тюнинга предлагается библиотека NeuronX Distributed.
Развертывание возможно с использованием vLLM на Trainium/Inferentia.
Одновременно о поддержке Llama 3.1 объявил и Google:
Google Cloud добавляет семейство моделей Llama 3.1 от Meta в Vertex AI Model Garden.
Пользователи могут дообучать модели на собственных данных.
Платформа обеспечивает автоматическое масштабирование и оплату по мере использования.
Поддерживаются Llama Guard и встроенные меры безопасности Google Cloud.
#AWS #Google #Llama
-------
@tsingular
AWS анонсировала поддержку моделей Llama 3.1 на своих специализированных AI-чипах.
Семейство включает многоязычные модели размером 8B, 70B и 405B с контекстом до 128k токенов.
Llama 3.1 405B - крупнейшая публично доступная открытая LLM.
Доступна в Amazon Bedrock, EC2, SageMaker и Hugging Face.
Для файн-тюнинга предлагается библиотека NeuronX Distributed.
Развертывание возможно с использованием vLLM на Trainium/Inferentia.
Одновременно о поддержке Llama 3.1 объявил и Google:
Google Cloud добавляет семейство моделей Llama 3.1 от Meta в Vertex AI Model Garden.
Пользователи могут дообучать модели на собственных данных.
Платформа обеспечивает автоматическое масштабирование и оплату по мере использования.
Поддерживаются Llama Guard и встроенные меры безопасности Google Cloud.
#AWS #Google #Llama
-------
@tsingular
И еще в копилку разбора Llama 3.1 иллюстрация от Daniel Han из unsloth.ai:
1. 15.6T tokens, Tools & Multilingual
2. Llama arch + new RoPE
3. fp16 & static fp8 quant for 405b
4. Dedicated pad token
5. <|python_tag|><|eom_id|> for tools?
6. Roberta to classify good quality data
7. 6 staged 800B tokens long context expansion
1. Новый метод расширения RoPE.
Использует интересный низкий и высокий коэффициент масштабирования и масштабирует вектор inv_freq — его можно вычислить за 1 проход, поэтому нет необходимости в динамических повторных вычислениях. Использовался 6-этапный подход к увеличению количества токенов с 8 000 до 128 000 с использованием токенов 800B.
2. Обучение
От 38% до 43% MFU с использованием bfloat16. Используется конвейерный параллелизм + FSDP. Усреднение модели для этапов RM, SFT и DPO.
3. Смесь данных
50% общие знания
25% математика и рассуждения
17% кодируют данные и задачи
8% многоязычных данных
4. Этапы предварительной обработки
Использует Roberta, DistilRoberta, fasttext для фильтрации данных хорошего качества. Множество средств дедупликации и эвристики для удаления неверных данных.
5. Квантование с fp8
Квантует веса до fp8 и ввод до fp8, затем умножает на коэффициенты масштабирования. fp8 x fp8, тогда выход будет bf16. Быстрее для вывода и меньше использования VRAM.
6. Эксперименты со зрением и речью
Команда Llama 3.1 также обучила адаптеры зрения и речи — правда, не выпущенные, но очень крутые!
#llama #unsloth
———
@tsingular
1. 15.6T tokens, Tools & Multilingual
2. Llama arch + new RoPE
3. fp16 & static fp8 quant for 405b
4. Dedicated pad token
5. <|python_tag|><|eom_id|> for tools?
6. Roberta to classify good quality data
7. 6 staged 800B tokens long context expansion
1. Новый метод расширения RoPE.
Использует интересный низкий и высокий коэффициент масштабирования и масштабирует вектор inv_freq — его можно вычислить за 1 проход, поэтому нет необходимости в динамических повторных вычислениях. Использовался 6-этапный подход к увеличению количества токенов с 8 000 до 128 000 с использованием токенов 800B.
2. Обучение
От 38% до 43% MFU с использованием bfloat16. Используется конвейерный параллелизм + FSDP. Усреднение модели для этапов RM, SFT и DPO.
3. Смесь данных
50% общие знания
25% математика и рассуждения
17% кодируют данные и задачи
8% многоязычных данных
4. Этапы предварительной обработки
Использует Roberta, DistilRoberta, fasttext для фильтрации данных хорошего качества. Множество средств дедупликации и эвристики для удаления неверных данных.
5. Квантование с fp8
Квантует веса до fp8 и ввод до fp8, затем умножает на коэффициенты масштабирования. fp8 x fp8, тогда выход будет bf16. Быстрее для вывода и меньше использования VRAM.
6. Эксперименты со зрением и речью
Команда Llama 3.1 также обучила адаптеры зрения и речи — правда, не выпущенные, но очень крутые!
#llama #unsloth
———
@tsingular
Forwarded from Machinelearning
Компания Neural Magic представила две квантованные FP8-версии модели Meta's Llama 3.1 405B Instruct:
Примененная оптимизация уменьшает количество бит на параметр с 16 до 8, сокращая требования к VRAM примерно на 50 %. FP8-модель может быть развернута помощью одного узла 8xH100 GPU.
Процесс квантования применялся исключительно к весам и активациям линейных операторов внутри блоков трансформеров. Использовалось симметричное поканальное квантование, которое включает линейное масштабирование по выходному измерению для отображения представлений FP8 квантованных весов и активаций.
Кроме того, активации квантованы динамически на основе каждого токена.
Для квантования использовалась библиотека оптимизации LLM Compressor с набором 512 последовательностей UltraChat.
Обе FP8 модели сохраняют архитектуру Meta-Llama-3.1 и могут быть запущены на бэкенде vLLM.
В бенчмарке OpenLLM версия FP8-dynamic получила средний балл 86,55. Это максимально близко к результату оригинальной модели - 86,63 (99,91%).
@ai_machinelearning_big_data
#AI #ML #LLM #Llama #FP8
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
SambaNova бьёт рекорды скорости с Llama 3.1
Компания SambaNova Systems установила рекорд производительности на модели Llama 3.1 405B, достигнув 123 токенов в секунду.
Это в 4 раза быстрее ближайших конкурентов благодаря инновационному ASIC-чипу SN40L.
На Llama 3.1 8B система генерирует свыше 1000 токенов в секунду.
Платформа предлагает корпорациям возможность развертывания приватных GPT-моделей с раз дешевле.
https://fast.snova.ai/
Интересный конкурент Groq.
У Groq, кстати 405B пока нет.
API, правда по запросу.
Headquartered in Palo Alto, California, SambaNova Systems was founded in 2017 by industry luminaries, and hardware and software design experts from Sun/Oracle and Stanford University.
Investors include SoftBank Vision Fund 2, funds and accounts managed by BlackRock, Intel Capital, GV, Walden International, Temasek, GIC, Redline Capital, Atlantic Bridge Ventures, Celesta, and several others.
#SambaNova #Llama #ASIC
Компания SambaNova Systems установила рекорд производительности на модели Llama 3.1 405B, достигнув 123 токенов в секунду.
Это в 4 раза быстрее ближайших конкурентов благодаря инновационному ASIC-чипу SN40L.
На Llama 3.1 8B система генерирует свыше 1000 токенов в секунду.
Платформа предлагает корпорациям возможность развертывания приватных GPT-моделей с раз дешевле.
https://fast.snova.ai/
Интересный конкурент Groq.
У Groq, кстати 405B пока нет.
API, правда по запросу.
Headquartered in Palo Alto, California, SambaNova Systems was founded in 2017 by industry luminaries, and hardware and software design experts from Sun/Oracle and Stanford University.
Investors include SoftBank Vision Fund 2, funds and accounts managed by BlackRock, Intel Capital, GV, Walden International, Temasek, GIC, Redline Capital, Atlantic Bridge Ventures, Celesta, and several others.
#SambaNova #Llama #ASIC
👍2
NVIDIA допилили Llama: выпустили Nemotron-51B
NVIDIA представила Llama 3.1-Nemotron-51B - оптимизированную версию Llama-3.1-70B.
Новый подход - Neural Architecture Search (NAS) позволил создать модель, обеспечивающую в 2.2 раза более быстрый инференс.
Меньше жрёт память, что позволяет запускать в 4 раза больше задач на одном GPU (рекомендован H100 80Gb).
Есть версия Llama-3.1-Nemotron-40B-Instruct для диалогов.
Попробовать можно тут:
https://build.nvidia.com/nvidia/llama-3_1-nemotron-51b-instruct
В этот раз ставка сделана на скорость, при сохранении результата. Даже в части тестов получается на 1-2% слабее Llama 3.1 70B.
Ну и H100 80Gb не в каждом гараже, конечно, есть пока.
#NVIDIA #Llama #Nemotron
-------
@tsingular
NVIDIA представила Llama 3.1-Nemotron-51B - оптимизированную версию Llama-3.1-70B.
Новый подход - Neural Architecture Search (NAS) позволил создать модель, обеспечивающую в 2.2 раза более быстрый инференс.
Меньше жрёт память, что позволяет запускать в 4 раза больше задач на одном GPU (рекомендован H100 80Gb).
Есть версия Llama-3.1-Nemotron-40B-Instruct для диалогов.
Попробовать можно тут:
https://build.nvidia.com/nvidia/llama-3_1-nemotron-51b-instruct
В этот раз ставка сделана на скорость, при сохранении результата. Даже в части тестов получается на 1-2% слабее Llama 3.1 70B.
Ну и H100 80Gb не в каждом гараже, конечно, есть пока.
#NVIDIA #Llama #Nemotron
-------
@tsingular