Machinelearning

🌟 Mooncake: Кэш-центричная архитектура с разнесением для обслуживания LLM.

Mooncake - это опенсорс-версия решений для платформы LLM-сервиса Kimi, используемой Moonshot AI.

Платформа использует KVCache-центричную разнесенную архитектуру, которая разделяет кластеры предварительной обработки (prefill) и декодирования (decode), и использует свободные ресурсы CPU, DRAM и SSD кластера GPU для распределения KVCache.

Mooncake использует планировщик, который максимизирует общую пропускную способность за счет политики раннего отклонения запросов на основе прогнозирования при соблюдении требований к SLO (Service Level Objectives).

Основной компонент Mooncake - Transfer Engine, который обеспечивает быструю, надежную и гибкую передачу данных по протоколам TCP, RDMA, NVIDIA GPUDirect RDMA и NVMe over Fabric (NVMe-of). Transfer Engine обладает меньшей задержкой ввода-вывода по сравнению с gloo (используется в Distributed PyTorch) и TCP.

Transfer Engine оптимизирует использование нескольких устройств RDMA NIC, выбор лучшего пути с учетом топологии и обеспечивает повышенную устойчивость к временным ошибкам сети.

В сетях RoCE 4×200 Gbps и 8×400 Gbps Transfer Engine показывает пропускную способность до 87 ГБ/с и 190 ГБ/с соответственно, что примерно в 2,4 и 4,6 раза быстрее, чем протокол TCP.

На базе Transfer Engine реализована библиотека P2P Store, которая позволяет обмениваться временными объектами (например, чекпоинтами) между узлами кластера. Transfer Engine интегрирован с vLLM для повышения эффективности разнесения prefill-decode.

Тесты показали, что Mooncake превосходит базовые методы обслуживания LLM в сценариях с длинным контекстом: пропускная способность увеличивается на 525% в некоторых смоделированных сценариях при соблюдении SLO, а в реальных рабочих нагрузках Mooncake позволяет Kimi обрабатывать на 75% больше запросов.

📌Лицензирование: Apache 2.0 License.

🟡

Arxiv

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #Mooncake

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🔥7❤5

8.41K views19:03

Machinelearning

✔️

Amazon представил линейку базовых моделей Nova.

На конференции AWS re:Invent в Лас-Вегасе Amazon представила Amazon Nova, свое собственное семейство базовых моделей, доступных исключительно через Amazon Bedrock. Модели Nova на 75% дешевле, чем лучшие модели в своих классах в Bedrock.

Модели Nova доступны с функцией дистилляции, глубоко интегрированы с базами данных Bedrock, что позволяет пользователям использовать RAG для построения инференса на основе собственных данных. Семейство Nova покрывает все популярные модальности: обработка текста, генерация изображений, синтез видео и понимание мультимедийного контента.
aboutamazon.com

✔️

Создатели NotebookLM уходят из Google, чтобы основать собственный стартап.

Три ключевых участника команды NotebookLM объявили о своем уходе из Google, чтобы основать новый стартап, который пока находится в режиме полной секретности. Бывший руководитель команды Райза Мартин намекнула, что он будет ориентирован на потребителей. Мартин подчеркнула стремление команды использовать новейшие модели ИИ для создания продукта, полезного для обычных людей.

Пока неясно, будет ли новый проект фокусироваться на функциях, которые сделали NotebookLM популярным или же команда выберет совершенно новое направление. Несмотря на раннюю стадию развития, стартап уже получил значительную поддержку со стороны других основателей, инвесторов и специалистов.
techcrunch.com

✔️

Исследователь по безопасности ИИ покидает OpenAI.

Ресечер по безопасности Рози Кэмпбелл уходит из OpenAI, ссылаясь на изменения в компании за последний год, которые вызывают у нее беспокойство, особенно после ухода Майлза Брандейджа, бывшего руководителя отдела общей готовности к ИИ, и роспуска его команды.

Рози не устраивает то, что текущий подход OpenAI к безопасности может быть недостаточным для мощных систем ИИ, которые, как ожидается, появятся в этом десятилетии. Она считает, что миссия OpenAI - не просто «создать общий ИИ», но и гарантировать, что он «принесет пользу человечеству».
rosiecampbell.xyz

✔️

MALT: метод совместного обучения языковых моделей для задач рассуждения.

MALT (Multi-Agent LLM Training) - метод, позволяющий совместно обучать несколько LLM для решения сложных задач, требующих рассуждения. В основе MALT лежит последовательная многоагентная система, состоящая из генератора, верификатора и модели уточнения, которые работают над решением задачи итеративно.

Для обучения моделей MALT использует синтетические данные, сгенерированные с помощью процесса расширения траекторий. Этот процесс позволяет создавать большое количество обучающих примеров, которые используются для дообучения каждой модели с помощью SFT и DPO. Результаты оценки MALT, использующий модели Llama 3.1 8B, на бенчмарках MATH, GSM8k и CSQA показали, что метод достигает улучшений на 14,14%, 7,12% и 9,40% соответственно по сравнению с базовой моделью.
huggingface.co

✔️

Рост фондового рынка США в 2024 году достиг уровня эпохи «доткомов».

Индекс S&P 500, вероятно, завершит 2024 год с ростом почти на 27%, установив в этом году 50 рекордов. Этот впечатляющий рост следует за скачком на 24,2% в 2023 году, что делает двухлетний период беспрецедентным со времен бума доткомов.

В отличие от эпохи доткомов, нынешний рост обусловлен стремительным взлетом цен акций компаний, работающих в сфере ИИ. Например, стоимость Nvidia выросла более чем вдвое после утроения в 2023 году. Экономика США, несмотря на недавнюю рецессию, связанную с пандемией COVID-19, пока избегает нового витка падения, которую многие на Уолл-стрит считали неизбежной после повышения основной процентной ставки до 20-летнего максимума.
apnews.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤9🔥6🤔1

6.97K views06:15

Machinelearning

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ PaliGemma 2: Новое семейство VLMs от Google.

PaliGemma 2 - обновление open-sorce VLM PaliGemma, основанное на семействе LLM Gemma 2. Семейство сочетает в себе кодировщик изображений SigLIP-So400m с спектром моделей Gemma 2, от 2B до 27B параметров. Модели PaliGemma 2 обучались в 3 этапа на трех разрешениях (224px², 448px² и 896px²).

PaliGemma 2 демонстрирует впечатляющие результаты в распознавании музыкальных нот, молекулярных структур и медицинских изображений. Модели справляются с распознаванием табличной структуры и созданием отчетов по рентгенограммам.

В задачах генерации длинных, детализированных аннотаций к изображениям PaliGemma 2 превосходит многие популярные VLM, несмотря на то, что она обучалась на значительно меньших наборах данных.

Для развертывания на устройствах без GPU могут использоваться квартованные версии PaliGemma 2. Тесты показали, что переход от 32-битной разрядности (f32) к 16-битной (bf16) или квантованным весам не приводит к заметному снижению качества.

В релиз вошли предварительно обученные модели 3B, 10B и 28B с разрешениями 224px, 448px, 896px, модели, настроенные на наборе данных DOCCI для создания аннотаций к изображениям и их версии для JAX/FLAX.

Процесс файнтюна PaliGemma 2 такой же, как и у предыдущей версии. Разработчики предоставляют скрипт и ipynb-блокнот для тонкой настройки модели или создания LoRA/QLoRA.

Создание LoRA модели PaliGemma 2 на половине валидационного сплита VQAv2 заняло полчаса на 3-х A100 с 80 ГБ VRAM. Результат можно найти здесь, а это ее демо.

▶️Пример инференса модели paligemma2-10b-ft-docci-448 на Transformers:

from transformers import AutoProcessor, PaliGemmaForConditionalGeneration
from PIL import Image
import requests

model_id = "google/paligemma2-10b-ft-docci-448"
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id)
model = model.to("cuda")
processor = AutoProcessor.from_pretrained(model_id)

prompt = "<image>caption en"
image_file = "% link_to_target_file%"
raw_image = Image.open(requests.get(image_file, stream=True).raw).convert("RGB")

inputs = processor(prompt, raw_image, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_new_tokens=20)

print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])

📌Лицензирование: Gemma License.

🟡

Статья

🟡

Коллекция на HF

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #VLM #Google #PaliGemma

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21🔥9❤5❤‍🔥1

9.88K views11:30

Machinelearning

🎨Исследователи создали новый способ генерации изображений, который не уступает методу диффузии

Ученые из Yandex Research представили новый подход к генерации изображений: Switti (Scale-wise transformer for text-to-image synthesis). Команда взяла за основу AR-модели, которые автоматически предсказывают следующий компонент последовательности на основе всех предыдущих компонентов этой последовательности. Однако изменился сам подход: модель прогнозирует уже не токен, а сам скейл: изображение генерируется по тексту разрешение за разрешением.

Кажется, идея оказалось рабочей. Switty генерирует изображения в 7 раз быстрее (0.1 секунда), чем SDXL и в 2 раза быстрее, чем у SDXL-Turbo. При этом качество сопоставимо с диффузионными моделями.

Приятно наблюдать за новыми решениями, которые драйвят сферу и предлагают конкурентную альтернативу устоявшимся диффузионным моделям. Учитывая скорость, Switti смело можно будет использовать в случаях, когда необходимо создать большое количество изображений за короткое время.

Модель Switti уже доступна для тестирования. Можно ознакомиться с результатами работы на платформе Hugging Face: демонстрационная версия.

Для разработчиков доступен исходный код на GitHub: репозиторий проекта.

@ai_machinelearning_big_data

👍40❤14🔥12🤣4❤‍🔥1

8K views13:54

Machinelearning

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 The Well: Масштабная коллекция физических симуляций для машинного обучения.

The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых.

Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом.

Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования.

Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах, где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование.

The Well предоставляет класс the_well для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face, что позволяет получать данные напрямую через интернет.

▶️ Установка и пример использования c HF:

# Create new venv
python -m venv path/to/env
source path/to/env/activate/bin

# Instal from repo
git clone https://github.com/PolymathicAI/the_well
cd the_well
pip install .

# Streaming from Hugging Face
from the_well.data import WellDataset
from torch.utils.data import DataLoader

trainset = WellDataset(
    well_base_path="hf://datasets/polymathic-ai/",
    well_dataset_name="active_matter",
    well_split_name="train",
)
train_loader = DataLoader(trainset)

for batch in train_loader:
    ...

📌Лицензирование кода : BSD-3-Clause License.

📌Лицензирование датасетов : CC-BY-4.0 License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Dataset #TheWell

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19🔥11👍8❤‍🔥1

13.5K views15:32

Machinelearning

⚡️ Llama 3.3 70B.

Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам.

Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности.

Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года.

Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки.

▶️ Пример инфренса на Transformers:

import transformers
import torch

model_id = "meta-llama/Llama-3.3-70B-Instruct"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

outputs = pipeline(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

📌Лицензирование: LLAMA 3.3 License.

🟡

Модель

🟡

Demo

@ai_machinelearning_big_data

#AI #ML #LLM #Llama3

Please open Telegram to view this post

VIEW IN TELEGRAM

👍30❤11🔥6😢2

17.7K views18:14

Machinelearning

✔️

Уязвимости в инструментах машинного обучения.

Уязвимости, обнаруженные компанией JFrog в популярных инструментах машинного обучения с открытым исходным кодом: MLflow, H2O, PyTorch и MLeap, позволяют злоумышленникам использовать клиентские библиотеки машинного обучения, которые работают с Safetensors.

Взлом клиента машинного обучения позволяет получить доступ к учетным данным реестра моделей и внедрить вредоносный код. Среди обнаруженных уязвимостей - недостаточная санитизация в MLflow (CVE-2024-27132), небезопасная десериализация в H2O (CVE-2024-6960), проблема с обходом пути в PyTorch и уязвимость Zip Slip в MLeap (CVE-2023-5245).
thehackernews.com

✔️

OPENAI представили reinforcement finetuning для o1 (RFT).

Этот метод отличается от обычного файнтюнинга (или файнтюнинга с учителем) тем, что он позволяет обучать модель думать определённым образом в конкретной области, важной для пользователя.
Подробнее

✔️

Apple планирует изменить конструкцию памяти iPhone для повышения производительности ИИ.

Компания планирует внедрить дискретную упаковку памяти в iPhone, начиная с 2026 года, чтобы повысить производительность ИИ на устройстве. Samsung, поставщик компонентов памяти Apple, уже начал проводить исследования, чтобы удовлетворить запрос Apple. Сейчас iPhone использует упаковку типа «пакет-на-пакете» (PoP), где DRAM LPDDR размещается непосредственно на "системе-на-кристалле" (SoC).

Переход на дискретную упаковку позволит увеличить количество контактов ввода-вывода, повышая скорость передачи данных и количество параллельных каналов данных. Это улучшит пропускную способность памяти и возможности ИИ и также улучшает теплоотвод. Однако это изменение может потребовать уменьшения размера SoC или аккумулятора, а также увеличить энергопотребление и задержку.
macrumors.com

✔️

Google DeepMind представит более 100 научных работ на NeurIPS 2024.

Google DeepMind примет участие в 38-й ежегодной конференции по нейронным системам обработки информации (NeurIPS), которая пройдет с 10 по 15 декабря в Ванкувере, где представит более 100 новых научных работ по темам: агенты ИИ, генеративные медиа, инновационные подходы к обучению. В рамках конференции запланированы живые демонстрации Gemma Scope, ИИ для создания музыки, модели прогнозирования погоды, системы CAT3D и Android Control.
deepmind.google

✔️

PlayerUnknown представил 2 новые игры, основанные на машинном обучении.

Разработчик PlayerUnknown анонсировал две новые игры, основанные на технологиях Ai и ML: Preface: Undiscovered World и Prologue: Go Wayback.

Preface: Undiscovered World доступна в раннем доступе в Steam и представляет собой техническую демонстрацию процедурно генерируемых миров. Prologue: Go Wayback – это "выживалка", в которой погода и окружающая среда непосредственно влияют на исследование мира игроком. Обе игры служат «строительными блоками» для будущих проектов PlayerUnknown Productions и предназначены для сбора отзывов пользователей.
dualshockers.com

✔️

Китай представил сверхпроводящий чип с 504 кубитами.

Китай представил свой самый передовой квантовый компьютер «Tianyan-504» с 504-кубитным чипом «Xiaohong», разработанным в партнерстве с Китайской академией наук и компанией QuantumCTek. «Tianyan-504» устанавливает новый национальный рекорд, преодолевая порог в 500 кубитов, и конкурирует с IBM, по показателям производительности, времени жизни кубита и точности считывания. «Tianyan-504» будет интегрирован с квантовой облачной платформой China Telecom «Tianyan», запущенной в 2023 году, чтобы обеспечить глобальный доступ к возможностям квантовых вычислений. Платформа «Tianyan» уже привлекла более 12 миллионов посещений пользователей из более чем 50 стран.
thequantuminsider.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27❤8🔥5❤‍🔥1

11.7K views07:10

Machinelearning

2:25

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 Fish Speech V1.5: модель преобразования текста в речь и клонирования голоса.

Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").

Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.

▶️Языковая структура обучающего корпуса версии 1.5:

🟢Английский (en) >300 тыс. часов
🟢Китайский (zh) >300 тыс. часов
🟢Японский (ja) >100 тыс. часов
🟢Немецкий (de) ~20 тыс. часов
🟢Французский (fr) ~20 тыс. часов
🟢Испанский (es) ~20 тыс. часов
🟢Корейский (ko) ~20 тыс. часов
🟢Арабский (ar) ~20 тыс. часов

🟠

Русский (ru) ~20 тыс. часов
🟢Голландский (nl) <10 тыс. часов
🟢Итальянский (it) <10 тыс. часов
🟢Польский (pl) <10 тыс. часов
🟢Португальский (pt) <10 тыс. часов

Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.

Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.

⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.

📌Лицензирование: CC-BY-NC-SA-4.0 License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #TTS #FIshSpeech

Please open Telegram to view this post

VIEW IN TELEGRAM