Machinelearning

✔️

Amazon разрабатывает собственную GenAi-модель.

Amazon готовит к релизу модель генеративного ИИ, способную обрабатывать изображения, видео и текст. LLM под кодовым названием Olympus позволит клиентам искать определенные сцены в видео, например, победный бросок в баскетболе, используя простые текстовые запросы. Разработка Olympus поможет Amazon снизить зависимость от чат-бота Claude, который является популярным предложением на Amazon Web Services (AWS). Amazon может представить Olympus уже на следующей неделе на ежегодной конференции клиентов AWS re:Invent.
reuters.com

✔️ Google открывает Ai-кампус в Лондоне.

Google запустила образовательную программу AI Campus в Лондоне, чтобы поддержать и разнообразить следующее поколение специалистов в области ИИ. Расположенный в районе Сомерс-Таун, кампус был разработан в сотрудничестве с Camden Council и Camden Learning.

Двухлетняя пилотная программа нацелена на обучение местных студентов старших классов основам ИИ, предоставляя им доступ к прикладным ресурсам, наставничеству от экспертов Google и Google DeepMind, а также к реальным проектам, связывающим ИИ с различными областями. Фонд Google.org выделил грант в размере 865 000 фунтов стерлингов на финансирование программ по обучению основам ИИ по всей стране.
blog.google

✔️

DyCoke: метод динамического сжатия токенов для повышения эффективности моделей обработки видео.

Apple AI/ML совместно с лабораториями нескольких университетов представили DyCoke, метод динамического сжатия токенов в VLM. Метод, работающий без обучения, устраняет временную и пространственную избыточность в процессе анализа входного видео. Метод работает в 2 этапа: слияние временных токенов для консолидации избыточных токенов в соседних кадрах и динамическую обрезку в кеше KV во время декодирования.

DyCoke достигает ускорения инференса до 1,5 раз и сокращения использования VRAM в 1,4 раза по сравнению с базовыми моделями. Метод делает VLM более масштабируемыми для реальных приложений без необходимости точной настройки или дополнительного обучения. Код DyCoke пока не опубликован.
arxiv.org

✔️ TamGen: ИИ ускоряет разработку лекарств, создавая молекулы с учетом целевого белка.

Совместная команда Global Health Drug Discovery Institute и Microsoft Research разработала TamGen, модель генеративного ИИ, которая проектирует новые лекарственные соединения, ориентируясь на конкретные белки-мишени. В отличие от традиционных методов, TamGen не ограничивается анализом существующих соединений, а генерирует новые, химически разнообразные структуры, что позволяет расширить поиск терапевтических решений.

Модель обучается на последовательностях символов, представляющих молекулярные структуры, и использует информацию о 3D структуре белка-мишени. TamGen успешно идентифицировал несколько перспективных ингибиторов для протеазы Mycobacterium tuberculosis, а самое эффективное соединение продемонстрировало высокую биоактивность. TamGen также может оптимизировать существующие молекулы, разрабатывая фрагменты с учетом целевого белка, что потенциально позволяет создавать новые соединения на основе известной молекулярной структуры. Код TamGen и веса модели доступны на Github.
microsoft.com

✔️

xAI разрабатывает новый чат-бот и модель ИИ для потребительского рынка.

xAI Corp работает над созданием потребительского чат-бота, который может быть запущен уже в декабре. Компания обучает новую модель, которая, как ожидается, дебютирует примерно в то же время. xAI надеется, что алгоритм станет «самым мощным ИИ в мире по всем показателям». Новый ИИ станет новым дополнением к флагманской линейке LLM Grok.
siliconangle.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤7🔥3

8.02K views06:15

Machinelearning

🌟 cuPyNumeric: замена NumPy от NVIDIA.

По мере роста объемов данных и сложности вычислений, вычисления на Python и NumPy, основанные на CPU, нуждаются в ускорении для выполнения современных исследований.

cuPyNumeric разработана, чтобы стать заменой библиотеки NumPy, предоставляя сообществу Python распределенные и ускоренные вычисления на платформе NVIDIA. cuPyNumeric позволяет масштабировать вычисления без изменения кода проектов с одного CPU до суперкомпьютеров с несколькими GPU и вычислительными нодами.

Библиотека построена на Legate, поддерживает родной Python и интерфейс NumPy. cuPyNumeric доступен из conda (версия не ниже 24.1) в legate channel. На системах с GPU пакеты, поддерживающие графические ускорители будут выбраны автоматически во время установки.

Пример эффективности cuPyNumeric - обработка 10 ТБ микроизображений многоракурсной микроскопии в виде одного массива NumPy за один день с визуализаций в режиме реального времени.

▶️Установка и тест на примере из репозитория:

# Create new conda env
conda create -n myenv -c conda-forge -c legate cupynumeric

# Test via example from repo
$ legate examples/black_scholes.py
Running black scholes on 10K options...
Elapsed Time: 129.017 ms

📌Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Документация

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #NumPy #NVIDIA #cuPyNumeric

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥53👍19❤12🤔2🥰1

18K views10:27

Machinelearning

🌟 Wavehax: нейросетевой вокодер без эффекта наложения частот.

Wavehax - нейросетевой вокодер, который синтезирует аудиосигналы без искажений, вызванных наложением частот. Эта проблема часто возникает в моделях, работающих во временной области, где нелинейные операции и слои повышения дискретизации могут привести к наложению высокочастотных компонентов на низкочастотный диапазон.

Wavehax работает в частотно-временной области, оценивая комплексные спектрограммы и преобразуя их во временные сигналы с помощью кратковременного преобразования Фурье (STFT). Использование STFT позволяет получать более высокое качество синтезированной речи, особенно при экстраполяции на высокие значения основной частоты (F0).

Архитектура Wavehax построена на 2D CNN и специальном гармоническом априоре. Априор представляет собой комплексную спектрограмму, полученную из гармонического сигнала, который помогает модели генерировать высококачественные и согласованные по фазе гармонические компоненты.

В экспериментах, проведённых на корпусе японской речи JVS, Wavehax продемонстрировал качество речи, сравнимое с HiFi-GAN V1, при этом значительно сократив количество операций умножения-накопления и параметров модели.

Wavehax работает в 4 раза быстрее HiFi-GAN V1 на CPU и устойчив к экстраполяции на высокие значения F0, где эффект наложения частот становится особенно заметным.

▶️ Пример трейна и инференса с датасетом JVS:

# Set up the env
cd wavehax
pip install -e .

# Extract F0 and mel-spectrogram.
wavehax-extract-features audio=data/scp/jvs_all.scp

# Compute statistics of the training data
wavehax-compute-statistics feats=data/scp/train_no_dev.list stats=data/stats/train_no_dev.joblib

# Train the vocoder model
wavehax-train generator=wavehax discriminator=univnet train=wavehax train.train_max_steps=500000 data=jvs out_dir=exp/wavehax

# Inference via generate speech waveforms
wavehax-decode generator=wavehax data=jvs out_dir=exp/wavehax ckpt_steps=500000

🟡

Страница проекта

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Vocoder #Wavehax

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21👍14🔥3

12.8K views15:00

Machinelearning

✔️

Niantic тренирует большую геопространственную модель ИИ на данных Pokémon Go.

Niantic, разработчик Pokémon Go, объявила о создании модели ИИ, обученной на миллионах реальных изображений, собранных игроками Pokémon Go и приложения Scaniverse. Алгоритм, получивший название "большая геопространственная модель", обеспечит такое же свободное ориентирование в физическом мире, какое демонстрирует ChatGPT в мире языка.

Модель основана на данных "Системы визуального позиционирования" (VPS) Niantic, которая использует более 50 млн. нейросетей с более чем 150 трлн. параметров для определения местоположения телефона с точностью до сантиметра по одному изображению. Niantic планирует использовать новую модель для улучшения дополненной реальности в своих играх и разработки автономных систем и роботов.
singularityhub.com

✔️

AMD разрабатывает процессоры на основе стеклянных подложек.

AMD получила патент на использование стеклянных оснований при производстве процессоров. Стеклянные основания лучше отводят тепло, меньше теряют сигнал и точнее по размерам, чем традиционные материалы. Это делает их пригодными для высокочастотных задач, таких как 5G и искусственный интеллект.

Патент описывает технологию Through Glass Vias (TGV) для создания вертикальных каналов передачи данных и питания внутри стеклянного основания. Также в патенте представлен способ соединения нескольких стеклянных оснований с помощью меди.

AMD планирует использовать патент в процессорах Zen и новых GPU, состоящих из нескольких чиплетов.
techspot.com

✔️

Китай представил чип "Global Scheduling Ethernet".

Китайские компании представили чипы, работающие на базе протокола "Global Scheduling Ethernet" (GSE). Этот протокол предназначен для обработки больших объемов данных и обеспечения высокой скорости передачи, необходимых для искусственного интеллекта и других высокопроизводительных задач.

Разработка GSE началась в 2023 году при участии более 50 организаций, включая облачных провайдеров, производителей чипов и вузов. GSE является альтернативой технологии Ultra Ethernet Consortium (UEC), предназначенной для эффективной коммуникации в кластерах высокопроизводительных вычислений и ИИ.

Существующая технология Ethernet не подходит для больших рабочих нагрузок, связанных с обучением ИИ, из-за чего в ЦОДах, использующих GPU Nvidia, применяются проприетарные и дорогие технологии прямого соединения - NVLink. GSE нацелена решить эту проблему, предлагая эффективное и доступное решение для высокоскоростных вычислений.
tomshardware.com

✔️

Нанофотонные нейронные сети в объективах камер для вычислений.

Ученые из Вашингтонского университета разработали нанофотонную нейронную сеть (SVN3), которая встраивается в объективы камер и выполняет вычисления во время съемки, до записи на сенсор. SVN3 использует массив из 50 металлических элементов, оптимизированных для работы с некогерентным светом, которые выполняют параллельные многоканальные свертки со скоростью света без потребления энергии.

Для обучения сети используется метод низкоразмерной репараметризации. SVN3 достигает точности классификации изображений 72,76% на наборе данных CIFAR-10 и 48,64% на ImageNet, что сопоставимо с производительностью современных нейронных сетей.
SVN3 потребляет значительно меньше энергии, так как более 99% вычислений выполняется оптическим путем.
science.org

✔️

Более половины лонгридов в LinkedIn созданы ИИ.

Исследование Originality.ai показало, что 54% длинных постов в LinkedIn созданы искусственным интеллектом. В исследовании анализировались 8 795 длинных постов (не менее 100 слов), опубликованных с января 2018 года по октябрь 2024 года.

Запуск ChatGPT в 2022 году вызвал резкий рост количества контента, созданного ИИ, увеличившись на 189% с января по февраль 2023 года. После всплеска в феврале 2023 года наблюдается стабилизация, что может указывать на новую норму для контента в LinkedIn.
readwrite.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26❤6🔥4👏2

12.6K views08:15

Machinelearning

🌟 INTELLECT-1: релиз первой модели децентрализованного обучения.

PRIME Intellect опубликовала INTELLECT-1 (Instruct + Base), первую языковую модель с 10 млрд. параметров, совместно обученную за 50 суток 30 участниками эксперимента по всему миру.

PRIME Intellect использовала собственную платформу PRIME, разработанную для решения главных проблем децентрализованного обучения: ненадежность сети и динамическое управление вычислительными узлами.

Платформа использовала сеть из 112 GPU H100 на 3 континентах и достигла коэффициента использования вычислений в 96% при оптимальных условиях.

Корпус обучения составлял на 1 трлн. токенов публичных датасетов с процентным соотношением: 55% fineweb-edu, 10% fineweb, 20% Stack V1, 10% dclm-baseline, 5% open-web-math.

▶️

Технические характеристики:

🟢Parameters: 10B;
🟢Layers: 42;
🟢Attention Heads: 32;
🟢Hidden Size: 4096;
🟢Context Length: 8192;
🟢Vocabulary Size: 128256.

INTELLECT-1 достигла точности 37,5% на тесте MMLU и 72,26% на HellaSwag и превзошла несколько других моделей с открытым исходным кодом в WinoGrande с результатом 65,82%.

Хотя эти показатели немного отстают от современных популярных моделей, результаты эксперимента - важнейший шаг к демократизации разработки ИИ и предотвращению консолидации возможностей ИИ в рамках нескольких организаций.

▶️

Квантованные в GGUF версии INTELLECT-1_Instruct в разрядностях от 3-bit (5.46 GB) до 8-bit(10.9 GB) от сообщества LM Studio.

▶️Пример инференса на Transformers:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

torch.set_default_device("cuda")
model = AutoModelForCausalLM.from_pretrained("PrimeIntellect/INTELLECT-1")
tokenizer = AutoTokenizer.from_pretrained("PrimeIntellect/INTELLECT-1")

input_text = "%prompt%"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=50, num_return_sequences=1)
output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)

print(output_text)

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Decentralizated

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥41👍18❤8😎4

20.4K views12:31

Machinelearning

🌟 SmolVLM: набор компактных VLM от HuggingFace - Base, Synthetic и Instruct.

SmolVLM - серия компактных VLM с 2 млрд. параметров, отличающихся высокой эффективностью использования памяти и могут быть развернуты на локальных устройствах с ограниченными ресурсами.

Архитектура SmolVLM основана на Idefics3, с несколькими отличиями:

🟢В качестве языковой основы используется SmolLM2 1.7B вместо Llama 3.1 8B;

🟢Визуальная информация сжимается в 9 раз с помощью стратегии pixel shuffle, по сравнению с 4-кратным сжатием в Idefics3;

🟢Используются патчи размером 384x384 пикселей, а не 364x364;

🟢Визуальная основа модели изменена на shape-optimized SigLIP с патчами 384x384 пикселей и внутренними патчами 14x14;

🟢Контекстное окно SmolLM2 было расширено до 16 тыс. токенов для поддержки работы с несколькими изображениями.

Модель кодирует каждый патч изображения 384x384 в 81 токен, что позволяет ей обрабатывать тестовые запросы и изображения с использованием всего 1.2 тыс. токенов, в то время как Qwen2-VL использует 16 тыс. токенов. Это преимущество приводит к значительно более высокой скорости предварительной обработки (в 3,3-4,5 раза) и генерации (в 7,5-16 раз) по сравнению с Qwen2-VL.

Для самостоятельной тонкой настройки SmolVLM можно использовать transformers и TRL. Разработчиками представлен блокнот для файнтюна на VQAv2 с использованием LoRA, QLoRA или полной тонкой настройки. SmolVLM интегрирован с TRL для DPO через CLI.

⚠️ При batch sizes=4 и 8-битной загрузке QLoRA файнтюн потребляет около ~16 GB VRAM

📌Лицензирование: Apache 2.0

🟡

Статья на HF

🟡

Набор моделей

🟡

Demo

@ai_machinelearning_big_data

#AI #ML #SmallVLM #Huggingface

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤10🔥7

12.2K views10:54

Machinelearning

🌟 OLMo 2: Новое поколение полностью открытых языковых моделей.

OLMo 2 - серия открытых языковых моделей, созданная для развития науки о языковых моделях .

Модели OLMo 2 доступны в вариантах 7B и 13B параметров и обучены на массиве данных объемом 5 трлн. токенов. Они демонстрируют производительность, сопоставимую или превосходящую аналогичные по размеру полностью открытые модели на английских академических тестах.

Разработчики OLMo 2 уделили особое внимание стабильности обучения, используя методы RMSNorm, QK-Norm, Z-loss регуляризация и улучшенная инициализация.

Обучение проводилось в 2 этапа. На первом этапе модели обучались на датасете OLMo-Mix-1124 (3,9 трлн. токенов). На втором этапе использовался специально подобранный набор данных Dolmino-Mix-1124 (843 млрд. токенов), состоящий из веб-данных, материалов из академических источников, форумов вопросов и ответов, инструкций и математических задачников. Для объединения моделей, обученных на разных подмножествах данных, применялся метод "model souping".

Для оценки OLMo 2 была разработана система OLMES (Open Language Modeling Evaluation System) из 20 тестов для измерения способностей модели. OLMo 2 превзошел предыдущую версию OLMo 0424 по всем задачам и показал высокую эффективность по сравнению с другими открытыми моделями.

▶️Набор моделей OLMo 2:

🟢Базовые модели: OLMo-2-1124-7B и OLMo-2-1124-13B

🟠GGUF-версии: OLMo-2-1124-7B-GGUF и OLMo-2-1124-13B-GGUF

🟢Инструктивные версии: OLMo-2-1124-7B-Instruct и OLMo-2-1124-13B-Instruct

🟠DPO-версии: OLMo-2-1124-7B-DPO и OLMo-2-1124-13B-DPO

🟠SFT-версии: OLMo-2-1124-7B-SFT и OLMo-2-1124-13B-SFT

🟠Reward Model - версия OLMo-2-1124-7B-RM

▶️Пример инференса OLMo-2-7B c HF Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-1124-7B")
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-2-1124-7B")
message = ["Language modeling is "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
# optional verifying cuda
# inputs = {k: v.to('cuda') for k,v in inputs.items()}
# olmo = olmo.to('cuda')
response = olmo.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])

📌Лицензирование: Apache 2.0 License.

🟡

Страница проекта

🟡

Набор моделей

🟡

Demo

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #OLMo2

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25❤9🔥7

11.1K views09:01

Machinelearning

🌟 AIMV2: набор визуальных энкодеров от Apple.

AIMV2 – семейство моделей визуальных энкодеров, предварительно обученных с помощью мультимодальной авторегрессионной цели, которая восстанавливает фрагменты изображений и текстовые токены, что, в итоге, позволяет AIMV2 справляться с задачами распознавания изображений, локализации объектов и мультимодального понимания.

Архитектура AIMV2 основана на ViT и использует каузальный мультимодальный декодер, который сначала регрессирует фрагменты изображения, а затем декодирует текстовые токены авторегрессионно. Визуальный энкодер использует префиксное внимание, что позволяет использовать двунаправленное внимание во время вывода без дополнительной настройки.

Семейство AIMV2 обучалось на комбинации общедоступных (DFN-2B, COYO) и собственных (HQITP) датасетов, содержащих пары "изображение-текст" и синтетические аннотации, сгенерированные предварительно обученным инструментом.

Эксперименты после обучения показали, что AIMV2-3B достигает точности 89,5% на ImageNet с замороженным транком, что лучше, чем у генеративных методов MAE и AIM. AIMV2 превосходит CLIP и SigLIP в большинстве тестов на мультимодальное понимание.

Модель совместима с LiT для zero-shot распознавания и может быть настроена для обработки изображений с различными разрешениями и соотношениями сторон.

В отрытый доступ на HF опубликованы модели:

🟠AIMv2 в разрешении 224px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟠AIMv2 в разрешении 336px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟠AIMv2 в разрешении 448px: 4 модели с количеством параметров - 0.3B, 0.6B, 1.2B и 2.7B

🟢AIMv2 в Native разрешении : aimv2-large-patch14-native c 0.3B (разрешение в диапазоне от 112 до 4096)

🟢AIMv2 distilled ViT-Large (модели, которые были получены путем дистилляции из AIMV2-3B в архитектуру ViT-Large) : AIMv2-L и AIMv2-L-distilled.

🟠Zero-shot Adapted AIMv2 (модель после LiT- тюнинга): AIMv2-L с 0.3B параметров.

⚠️ ! Примеры инференса с JAX и MLX доступны в репозитории AIMv2

▶️Установка и локальный инференс c Pytorch:

# Clone the repository
pip install 'git+https://github.com/apple/ml-aim.git#subdirectory=aim-v2'

# Example Using PyTorch
from PIL import Image

from aim.v2.utils import load_pretrained
from aim.v1.torch.data import val_transforms

img = Image.open(...)
model = load_pretrained("aimv2-large-patch14-336", backend="torch")
transform = val_transforms(img_size=336)

inp = transform(img).unsqueeze(0)
features = model(inp)