Mooncake - это опенсорс-версия решений для платформы LLM-сервиса Kimi, используемой Moonshot AI.
Платформа использует KVCache-центричную разнесенную архитектуру, которая разделяет кластеры предварительной обработки (prefill) и декодирования (decode), и использует свободные ресурсы CPU, DRAM и SSD кластера GPU для распределения KVCache.
Mooncake использует планировщик, который максимизирует общую пропускную способность за счет политики раннего отклонения запросов на основе прогнозирования при соблюдении требований к SLO (Service Level Objectives).
Основной компонент Mooncake - Transfer Engine, который обеспечивает быструю, надежную и гибкую передачу данных по протоколам TCP, RDMA, NVIDIA GPUDirect RDMA и NVMe over Fabric (NVMe-of). Transfer Engine обладает меньшей задержкой ввода-вывода по сравнению с gloo (используется в Distributed PyTorch) и TCP.
Transfer Engine оптимизирует использование нескольких устройств RDMA NIC, выбор лучшего пути с учетом топологии и обеспечивает повышенную устойчивость к временным ошибкам сети.
В сетях RoCE 4×200 Gbps и 8×400 Gbps Transfer Engine показывает пропускную способность до 87 ГБ/с и 190 ГБ/с соответственно, что примерно в 2,4 и 4,6 раза быстрее, чем протокол TCP.
На базе Transfer Engine реализована библиотека P2P Store, которая позволяет обмениваться временными объектами (например, чекпоинтами) между узлами кластера. Transfer Engine интегрирован с vLLM для повышения эффективности разнесения prefill-decode.
Тесты показали, что Mooncake превосходит базовые методы обслуживания LLM в сценариях с длинным контекстом: пропускная способность увеличивается на 525% в некоторых смоделированных сценариях при соблюдении SLO, а в реальных рабочих нагрузках Mooncake позволяет Kimi обрабатывать на 75% больше запросов.
@ai_machinelearning_big_data
#AI #ML #LLM #Mooncake
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥7❤5
На конференции AWS re:Invent в Лас-Вегасе Amazon представила Amazon Nova, свое собственное семейство базовых моделей, доступных исключительно через Amazon Bedrock. Модели Nova на 75% дешевле, чем лучшие модели в своих классах в Bedrock.
Модели Nova доступны с функцией дистилляции, глубоко интегрированы с базами данных Bedrock, что позволяет пользователям использовать RAG для построения инференса на основе собственных данных. Семейство Nova покрывает все популярные модальности: обработка текста, генерация изображений, синтез видео и понимание мультимедийного контента.
aboutamazon.com
Три ключевых участника команды NotebookLM объявили о своем уходе из Google, чтобы основать новый стартап, который пока находится в режиме полной секретности. Бывший руководитель команды Райза Мартин намекнула, что он будет ориентирован на потребителей. Мартин подчеркнула стремление команды использовать новейшие модели ИИ для создания продукта, полезного для обычных людей.
Пока неясно, будет ли новый проект фокусироваться на функциях, которые сделали NotebookLM популярным или же команда выберет совершенно новое направление. Несмотря на раннюю стадию развития, стартап уже получил значительную поддержку со стороны других основателей, инвесторов и специалистов.
techcrunch.com
Ресечер по безопасности Рози Кэмпбелл уходит из OpenAI, ссылаясь на изменения в компании за последний год, которые вызывают у нее беспокойство, особенно после ухода Майлза Брандейджа, бывшего руководителя отдела общей готовности к ИИ, и роспуска его команды.
Рози не устраивает то, что текущий подход OpenAI к безопасности может быть недостаточным для мощных систем ИИ, которые, как ожидается, появятся в этом десятилетии. Она считает, что миссия OpenAI - не просто «создать общий ИИ», но и гарантировать, что он «принесет пользу человечеству».
rosiecampbell.xyz
MALT (Multi-Agent LLM Training) - метод, позволяющий совместно обучать несколько LLM для решения сложных задач, требующих рассуждения. В основе MALT лежит последовательная многоагентная система, состоящая из генератора, верификатора и модели уточнения, которые работают над решением задачи итеративно.
Для обучения моделей MALT использует синтетические данные, сгенерированные с помощью процесса расширения траекторий. Этот процесс позволяет создавать большое количество обучающих примеров, которые используются для дообучения каждой модели с помощью SFT и DPO. Результаты оценки MALT, использующий модели Llama 3.1 8B, на бенчмарках MATH, GSM8k и CSQA показали, что метод достигает улучшений на 14,14%, 7,12% и 9,40% соответственно по сравнению с базовой моделью.
huggingface.co
Индекс S&P 500, вероятно, завершит 2024 год с ростом почти на 27%, установив в этом году 50 рекордов. Этот впечатляющий рост следует за скачком на 24,2% в 2023 году, что делает двухлетний период беспрецедентным со времен бума доткомов.
В отличие от эпохи доткомов, нынешний рост обусловлен стремительным взлетом цен акций компаний, работающих в сфере ИИ. Например, стоимость Nvidia выросла более чем вдвое после утроения в 2023 году. Экономика США, несмотря на недавнюю рецессию, связанную с пандемией COVID-19, пока избегает нового витка падения, которую многие на Уолл-стрит считали неизбежной после повышения основной процентной ставки до 20-летнего максимума.
apnews.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤9🔥6🤔1
PaliGemma 2 - обновление open-sorce VLM PaliGemma, основанное на семействе LLM Gemma 2. Семейство сочетает в себе кодировщик изображений SigLIP-So400m с спектром моделей Gemma 2, от 2B до 27B параметров. Модели PaliGemma 2 обучались в 3 этапа на трех разрешениях (224px², 448px² и 896px²).
PaliGemma 2 демонстрирует впечатляющие результаты в распознавании музыкальных нот, молекулярных структур и медицинских изображений. Модели справляются с распознаванием табличной структуры и созданием отчетов по рентгенограммам.
В задачах генерации длинных, детализированных аннотаций к изображениям PaliGemma 2 превосходит многие популярные VLM, несмотря на то, что она обучалась на значительно меньших наборах данных.
Для развертывания на устройствах без GPU могут использоваться квартованные версии PaliGemma 2. Тесты показали, что переход от 32-битной разрядности (f32) к 16-битной (bf16) или квантованным весам не приводит к заметному снижению качества.
В релиз вошли предварительно обученные модели 3B, 10B и 28B с разрешениями 224px, 448px, 896px, модели, настроенные на наборе данных DOCCI для создания аннотаций к изображениям и их версии для JAX/FLAX.
Процесс файнтюна PaliGemma 2 такой же, как и у предыдущей версии. Разработчики предоставляют скрипт и ipynb-блокнот для тонкой настройки модели или создания LoRA/QLoRA.
Создание LoRA модели PaliGemma 2 на половине валидационного сплита VQAv2 заняло полчаса на 3-х A100 с 80 ГБ VRAM. Результат можно найти здесь, а это ее демо.
paligemma2-10b-ft-docci-448
на Transformers:from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests
model_id = "google/paligemma2-10b-ft-docci-448"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
model = model.to("cuda")
processor = AutoProcessor.from_pretrained(model_id)
prompt = "<image>caption en"
image_file = "% link_to_target_file%"
raw_image = Image.open(requests.get(image_file, stream=True).raw).convert("RGB")
inputs = processor(prompt, raw_image, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_new_tokens=20)
print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])
@ai_machinelearning_big_data
#AI #ML #VLM #Google #PaliGemma
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥9❤5❤🔥1
🎨Исследователи создали новый способ генерации изображений, который не уступает методу диффузии
Ученые из Yandex Research представили новый подход к генерации изображений: Switti (Scale-wise transformer for text-to-image synthesis). Команда взяла за основу AR-модели, которые автоматически предсказывают следующий компонент последовательности на основе всех предыдущих компонентов этой последовательности. Однако изменился сам подход: модель прогнозирует уже не токен, а сам скейл: изображение генерируется по тексту разрешение за разрешением.
Кажется, идея оказалось рабочей. Switty генерирует изображения в 7 раз быстрее (0.1 секунда), чем SDXL и в 2 раза быстрее, чем у SDXL-Turbo. При этом качество сопоставимо с диффузионными моделями.
Приятно наблюдать за новыми решениями, которые драйвят сферу и предлагают конкурентную альтернативу устоявшимся диффузионным моделям. Учитывая скорость, Switti смело можно будет использовать в случаях, когда необходимо создать большое количество изображений за короткое время.
Модель Switti уже доступна для тестирования. Можно ознакомиться с результатами работы на платформе Hugging Face: демонстрационная версия.
Для разработчиков доступен исходный код на GitHub: репозиторий проекта.
@ai_machinelearning_big_data
Ученые из Yandex Research представили новый подход к генерации изображений: Switti (Scale-wise transformer for text-to-image synthesis). Команда взяла за основу AR-модели, которые автоматически предсказывают следующий компонент последовательности на основе всех предыдущих компонентов этой последовательности. Однако изменился сам подход: модель прогнозирует уже не токен, а сам скейл: изображение генерируется по тексту разрешение за разрешением.
Кажется, идея оказалось рабочей. Switty генерирует изображения в 7 раз быстрее (0.1 секунда), чем SDXL и в 2 раза быстрее, чем у SDXL-Turbo. При этом качество сопоставимо с диффузионными моделями.
Приятно наблюдать за новыми решениями, которые драйвят сферу и предлагают конкурентную альтернативу устоявшимся диффузионным моделям. Учитывая скорость, Switti смело можно будет использовать в случаях, когда необходимо создать большое количество изображений за короткое время.
Модель Switti уже доступна для тестирования. Можно ознакомиться с результатами работы на платформе Hugging Face: демонстрационная версия.
Для разработчиков доступен исходный код на GitHub: репозиторий проекта.
@ai_machinelearning_big_data
👍40❤14🔥12🤣4❤🔥1
The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых.
Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом.
Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования.
Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах, где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование.
The Well предоставляет класс
the_well
для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face, что позволяет получать данные напрямую через интернет.# Create new venv
python -m venv path/to/env
source path/to/env/activate/bin
# Instal from repo
git clone https://github.com/PolymathicAI/the_well
cd the_well
pip install .
# Streaming from Hugging Face
from the_well.data import WellDataset
from torch.utils.data import DataLoader
trainset = WellDataset(
well_base_path="hf://datasets/polymathic-ai/",
well_dataset_name="active_matter",
well_split_name="train",
)
train_loader = DataLoader(trainset)
for batch in train_loader:
...
@ai_machinelearning_big_data
#AI #ML #Dataset #TheWell
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19🔥11👍8❤🔥1
Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам.
Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности.
Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года.
Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки.
import transformers
import torch
model_id = "meta-llama/Llama-3.3-70B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
@ai_machinelearning_big_data
#AI #ML #LLM #Llama3
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤11🔥6😢2
Уязвимости, обнаруженные компанией JFrog в популярных инструментах машинного обучения с открытым исходным кодом: MLflow, H2O, PyTorch и MLeap, позволяют злоумышленникам использовать клиентские библиотеки машинного обучения, которые работают с Safetensors.
Взлом клиента машинного обучения позволяет получить доступ к учетным данным реестра моделей и внедрить вредоносный код. Среди обнаруженных уязвимостей - недостаточная санитизация в MLflow (CVE-2024-27132), небезопасная десериализация в H2O (CVE-2024-6960), проблема с обходом пути в PyTorch и уязвимость Zip Slip в MLeap (CVE-2023-5245).
thehackernews.com
Этот метод отличается от обычного файнтюнинга (или файнтюнинга с учителем) тем, что он позволяет обучать модель думать определённым образом в конкретной области, важной для пользователя.
Подробнее
Компания планирует внедрить дискретную упаковку памяти в iPhone, начиная с 2026 года, чтобы повысить производительность ИИ на устройстве. Samsung, поставщик компонентов памяти Apple, уже начал проводить исследования, чтобы удовлетворить запрос Apple. Сейчас iPhone использует упаковку типа «пакет-на-пакете» (PoP), где DRAM LPDDR размещается непосредственно на "системе-на-кристалле" (SoC).
Переход на дискретную упаковку позволит увеличить количество контактов ввода-вывода, повышая скорость передачи данных и количество параллельных каналов данных. Это улучшит пропускную способность памяти и возможности ИИ и также улучшает теплоотвод. Однако это изменение может потребовать уменьшения размера SoC или аккумулятора, а также увеличить энергопотребление и задержку.
macrumors.com
Google DeepMind примет участие в 38-й ежегодной конференции по нейронным системам обработки информации (NeurIPS), которая пройдет с 10 по 15 декабря в Ванкувере, где представит более 100 новых научных работ по темам: агенты ИИ, генеративные медиа, инновационные подходы к обучению. В рамках конференции запланированы живые демонстрации Gemma Scope, ИИ для создания музыки, модели прогнозирования погоды, системы CAT3D и Android Control.
deepmind.google
Разработчик PlayerUnknown анонсировал две новые игры, основанные на технологиях Ai и ML: Preface: Undiscovered World и Prologue: Go Wayback.
Preface: Undiscovered World доступна в раннем доступе в Steam и представляет собой техническую демонстрацию процедурно генерируемых миров. Prologue: Go Wayback – это "выживалка", в которой погода и окружающая среда непосредственно влияют на исследование мира игроком. Обе игры служат «строительными блоками» для будущих проектов PlayerUnknown Productions и предназначены для сбора отзывов пользователей.
dualshockers.com
Китай представил свой самый передовой квантовый компьютер «Tianyan-504» с 504-кубитным чипом «Xiaohong», разработанным в партнерстве с Китайской академией наук и компанией QuantumCTek. «Tianyan-504» устанавливает новый национальный рекорд, преодолевая порог в 500 кубитов, и конкурирует с IBM, по показателям производительности, времени жизни кубита и точности считывания. «Tianyan-504» будет интегрирован с квантовой облачной платформой China Telecom «Tianyan», запущенной в 2023 году, чтобы обеспечить глобальный доступ к возможностям квантовых вычислений. Платформа «Tianyan» уже привлекла более 12 миллионов посещений пользователей из более чем 50 стран.
thequantuminsider.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤8🔥5❤🔥1
Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").
Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.
Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.
Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.
⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.
@ai_machinelearning_big_data
#AI #ML #TTS #FIshSpeech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥15❤10