288K subscribers
3.98K photos
692 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
🌟 TGI v3: Новая архитектура ускоренного инференса LLMs.

TGI v3 — новая версия архитектуры для обработки естественного языка, разработанная Hugging Face. TGI v3 демонстрирует значительный прирост производительности, особенно при работе с длинными запросами.

Улучшения v3:

🟢оптимизированные ядра;
🟢эффективная структура кэширования префиксов;
🟢улучшенное управление вычислительными ресурсами.

Flashinfer и flashdecoding — новые ядра быстрой обработки текста. Оптимизированная структура кэширования позволяет быстро находить совпадения даже для очень длинных запросов.

TGI v3 оценивалась в реалистичных сценариях на коротких и длинные запросах. Результаты тестов показали, что TGI v3 обрабатывает в 3 раза больше токенов, чем vLLM, а скорость обработки увеличилась в 13 раз для запросов длиной 200K+ токенов.

Хотя результаты работы TGI v3 впечатляют, следует учитывать некоторые ограничения:

⚠️ Если в среде не хватает места в kv-кэше, это может привести к конфликту. Чтобы избежать этого эффекта, следует установить ограничение --max-total-tokens.

⚠️ В сценариях, где несколько реплик находятся за одним эндпоинтом рекомендуется использовать балансировку нагрузки на зависимые сеансы, чтобы заставить каждого пользователя отправлять свои запросы на одну и ту же реплику.

🔜 Полная статья с описанием TGI v3 доступна на HF.


🖥 GIthub


@ai_machinelearning_big_data

#AI #ML #LLM #HuggingFace #TGI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥73
🌟 Лучшие открытые LLM на русском языке в мире

“Т-Технологии”(в состав входит Т-Банк) представили свои большие языковые модели T-Pro и обновленную T-Lite на платформе Hugging Face:

🟠32 млрд. параметров — у T-Pro;
🟢7 млрд. параметров – у T-Lite.

Им удалось обогнать все открытые модели в мире по качеству ответов на русском языке в своих категориях, в том числе проприетарные — T-Pro уступает лишь GPT4-o. Это показали разные бенчмарки, в том числе ruMMLU, Ru Arena Hard, MT Bench и AlpacaEval.

⚠️Модели создаются с использованием технологии продолженного предобучения (Continual Pretraining). Это значит, что уже обученную на больших объемах информации модель достаточно дообучить под конкретные задачи. Также модели T-Lite и T-Pro основаны на базе моделей семейства Qwen-2.5, но показывают более высокое качество на задачах русского языка, чем оригинальные модели.

@ai_machinelearning_big_data

#AI #ML #LLM #EXAONE #LG
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
34👍19🤣16🔥8🤨1
📌 Пятидневный интенсивный курс по GenAI от Google и Kaggle.

Google совместно с Kaggle представили пятидневный интенсивный курс по генеративному искусственному интеллекту, который доступен в формате самостоятельного обучения.

Курс, который проходил в прямом эфире с 11 по 15 ноября 2024 года, охватывает базовые технологии и методы генеративного ИИ. Программа включает изучение базовых моделей, инженерии промптов, векторных баз данных и эмбедингов, ИИ-агентов, специализированных моделей для конкретных областей и MLOps для GenAi.

Каждый день курса посвящен определенной теме и включает теоретические материалы, практические задания и возможность взаимодействия с экспертами Google.

Участники изучат развитие LLM, начиная с трансформеров и заканчивая техниками тонкой настройки и ускорения инференса. Познакомятся с методами инженерии промптов для оптимизации взаимодействия с LLM.

В рамках курса будут рассмотрены концепции эмбедингов и векторных баз данных, алгоритмы векторного поиска и научатся создавать ИИ-агентов, понимая их основные компоненты и итеративный процесс разработки.

Курс включает создание и применение специализированных LLM: SecLM и Med-PaLM, с комментариями разработчиков. Участники узнают, как адаптировать практики MLOps для генеративного ИИ и использовать инструменты Vertex AI для базовых моделей и приложений генеративного ИИ.

В рамках практических занятий на платформе Kaggle участники смогут применить полученные знания, создавая системы вопросов и ответов на основе извлечения информации, нейронные сети классификации и агентные системы заказа.

Курс разработан экспертами Google: Анантой Навалгарией, Марком Макдональдом, Пейдж Бейли и другими.

⚠️ Для доступа к коду курса необходимы аккаунты на Kaggle (c верификацией номера телефона), Google Ai Studio (для создания API KEY).


🟡Страница курса
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #GenAI #Course
Please open Telegram to view this post
VIEW IN TELEGRAM
👍217🔥6
🌟 BioNeMo: фреймворк разработки ИИ-моделей для дизайна лекарств.

NVIDIA BioNeMo2 Framework - это набор инструментов, библиотек и моделей для вычислительного поиска и разработки лекарственный препаратов.

Он ускоряет самые трудоемкие и дорогостоящие этапы создания и адаптации моделей биомолекулярного ИИ, предоставляя оптимизированные модели и инструменты, которые легко интегрируются в вычислительные ресурсы на базе GPU.

Фреймворк позволяет создавать, обучать и настраивать модели, его возможности охватывают различные рабочие нагрузки и терапевтические механизмы: генерация молекул, предсказание структуры белка, белок-лиганд и обучение представлениям.

Помимо кода пайплайнов, скриптов и утилит, BioNeMo2 Framework содержит:

▶️Предобученные модели:

🟢ESM-2 - предварительно обученный двунаправленный энкодер (BERT-подобный) для аминокислотных последовательностей. BioNeMo2 включает в себя чекпоинты с параметрами 650M и 3B;

🟢Geneformer - модель табличного подсчета, которая генерирует плотное представление sc-RNA клетки путем изучения паттернов коэкспрессии в отдельных клетках.


▶️Датасеты:

🟠CELLxGENE - совокупность общедоступных single-cell наборов данных, собранных в CZI (Chan Zuckerberg Initiative) общим объемом в 24 млн. клеток;


🟠UniProt - база данных кластеризованных наборов белковых последовательностей из UniProtKB, созданная на основе транслированных геномных данных.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Framework #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥75
✔️ Google открыла доступ к Gemini 2.0 Flash.

Gemini 2.0 Flash демонстрирует двукратное увеличение скорости по сравнению с предыдущей версией 1.5 Pro и обладает улучшенными характеристиками в обработке текста, кода, видео и пространственных данных. Модель также поддерживает новые функции: мультимодальный вывод (текст, аудио и изображения) и встроенное использование Google Search.
Разработчики могут получить доступ к Gemini 2.0 Flash через API в Google AI Studio и Vertex AI. Обновленная версия Gemini также предоставляет возможность создавать приложения с использованием потоковой передачи аудио и видео в режиме реального времени.
developers.googleblog.com

✔️ Apple разрабатывает собственный ИИ-чип.

Apple в сотрудничестве с Broadcom разрабатывает собственный серверный чип, оптимизированный для задач искусственного интеллекта. Чип под кодовым названием Baltra, планируется запустить в массовое производство к 2026 году, а для его производства Apple намерена использовать передовой техпроцесс TSMC с обозначением N3P.
theinformation.com

✔️ Microsoft запускает Copilot Vision.

Microsoft запускает предварительную версию Copilot Vision, инструмента, который позволяет пользователям взаимодействовать с веб-страницами с помощью ИИ. Copilot Vision доступен в браузере Microsoft Edge, сканирует и анализирует содержимое веб-страницы, предоставляя расширенную информацию и помогая в принятии решений.

Например, Copilot Vision может помочь спланировать посещение музея, выделив информацию о выставках и экспонатах или упростить онлайн-шопинг, подбирая товары в соответствии с заданными критериями.

Copilot Vision активируется только с разрешения пользователя, а данные сеанса удаляются после его завершения. Предварительная версия Copilot Vision доступна ограниченному числу подписчиков Copilot Pro в США и будет работать только с определенным набором веб-сайтов.
microsoft.com

✔️ Hugging Face и Entalpic представляют LeMaterial: открытую инициативу для исследований в области материаловедения.

Первым этапом проекта стал выпуск набора данных LeMat-Bulk, который объединяет, очищает и стандартизирует данные из авторитетных источников: Materials Project, Alexandria и OQMD. В результате сформирован единый формат данных, включающий 6,7 млн. записей и 7 свойств материалов.

LeMat-Bulk содержит древовидную карту элементного состава, расширяющую охват существующих наборов данных, которые фокусируются на конкретных типах материалов. LeMat-Bulk предоставляет пользователям инструменты для изучения и визуализации. В последующих версиях LeMaterial планируется добавление новых наборов данных, инструментов и приложений.
huggingface.co

✔️ Google тестирует "универсального агента" ИИ.

Google DeepMind расширяет программу тестирования Project Astra и Project Mariner, которые входят в прототип "универсального агента" ИИ.

Astra - виртуальный помощник, способный обрабатывать текст, изображения, видео и аудио в режиме реального времени и отвечать на вопросы, касающиеся этих данных. Он "запоминает" предыдущие взаимодействия и может ссылаться на них. Project Mariner - ИИ, способный управлять браузером пользователя и выполнять задачи с помощью расширения Chrome.

В настоящее время оба проекта находятся на ранней стадии разработки и доступны ограниченному числу тестировщиков. Astra интегрируется в продукты Google: Search, Lens и Maps. Пока неизвестно, когда эти системы станут доступны широкой публике.
theverge.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🥰84
🌟 Torchcodec: библиотека для декодирования видео в PyTorch.

PyTorch представила torchcodec – библиотеку, предназначенную для декодирования видео в тензоры PyTorch. Библиотека разработана для специалистов, работающих с моделями машинного обучения PyTorch, которым требуется обработка видеоданных. Torchcodec обеспечивает декодирование видео в тензоры PyTorch на CPU и GPU CUDA.

Библиотека рассматривает видеофайл как последовательность кадров в Python и поддерживает два метода их извлечения: на основе индекса и на основе времени презентации. Декодированные кадры представляют собой тензоры PyTorch, готовые для подачи в модели машинного обучения.

Torchcodec поддерживает все кодеки, доступные в FFmpeg и может обрабатывать видео как с постоянной, так и с переменной частотой кадров .

Подробная инструкция по установке, использованию классов библиотеки и примеры декодирования доступны в документации Torchcodec.


📌Лицензирование: BSD-3-Clause License.


🟡Статья
🟡Документация
🖥Github


@ai_machinelearning_big_data

#AI #ML #Pytorch #Torchcodec
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥137🤔2🤬1
🌟 MD4: Маскированная диффузия для дискретных данных.

Маскированная (или абсорбирующая) диффузия - перспективный подход в генеративном моделировании дискретных данных, предлагающий альтернативу авторегрессионным моделям.

MD4 (Masked Discrete Diffusion for Discrete Data) - метод, разработанный в Google DeepMind предлагает упрощенный и обобщенный подход к маскированной диффузии. Структура метода позволяет обучать обобщенные модели маскированной диффузии с гибкими схемами маскировки, зависящими от состояния данных.

В основе MD4 лежит «маскирующий» процесс, превращающий исходные данные в состояние «маски» в случайный момент времени. Обращение этого процесса позволяет синтезировать новые данные, сохраняющие распределение обучающей выборки.

Математически прямой процесс описывается как марковская последовательность дискретных случайных величин, индексируемых временным параметром от 0 до 1.

MD4 продемонстрировал превосходство над диффузионными языковыми моделями по показателю перплексии на наборе данных OpenWebText и значительно обошел существующие дискретные диффузионные модели по качеству пиксельного моделирования изображений, достигая 2,75 бит на измерение для CIFAR-10 и 3,40 бит на измерение для ImageNet 64 × 64.

Эти результаты выше, чем показатели авторегрессионных моделей сопоставимого размера (GPT-2, PixelRNN, Gated PixelCNN, PixelCNN++, PixelSNAIL, Image Transformer, Sparse Transformer).

Несмотря на все преимущества метода, MD4 склонен к переобучению, что снижает его эффективность для задач с нулевой выборкой по сравнению с более простыми моделями.

Прикладная реализация MD4 опубликована в репозитории Google Deepmind, в котором представлена возможность повторить экспериментальное обучение на тексте или изображениях.

⚠️ Batch size зависит от вычислительных ресурсов. Для обучения модели MD4-S с длиной последовательности 1024, 8 GPU A100 могут поддерживать максимальный batch size=128. При запуске на TPU, 8 чипов v5litepod, batch size=32.

▶️Локальная установка и пример обучения на тексте и изображениях:

# Create & activate env
python -m venv md4_venv
source md4_venv/bin/activate

# Install required packages
pip install -r requirements_gpu.txt

# Include a path dir in the Python path
export PYTHONPATH="$PYTHONPATH:~/path/to/md4"

# Prepare openwebtext for training
mkdir data_dir
python prepare_openwebtext_data.py

# Train a MD4-S model over text data
python md4/main.py --config=md4/configs/md4/openwebtext.py --sharded=false --workdir=./expt

# Train a MD4-S model over image data via cifar10
python md4/main.py --config=md4/configs/md4/cifar10.py --sharded=false --workdir=./expt


📌Лицензирование: Apache 2.0 License.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #MD4 #GoogleDeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥65
✔️ OpenAI расширяет возможности голосового режима ChatGPT.

OpenAI представила обновленный голосовой режим ChatGPT, который теперь поддерживает функции демонстрации экрана и распознавания изображений. Благодаря этому ChatGPT может анализировать контекст происходящего на экране смартфона или компьютера и давать более точные инструкции. Русский язык - поддерживается.

Обновленный голосовой режим уже доступен в мобильных приложениях для пользователей Team, а также для большинства подписчиков Pro и Plus. В ближайшее время функция станет доступна для европейских пользователей Pro и Plus, а в начале следующего года - для пользователей Enterprise и Edu.
openai.com

✔️ Midjourney представила Patchwork, инструмент для создания миров.

Patchwork – это бесконечное полотно, поддерживаемое искусственным интеллектом, которое позволяет создавать миры как персонально, так и совместно. С помощью этого инструмента можно развить расплывчатые идеи в полноценные истории, а также создавать необычные визуальные новеллы из изображений и текста.

В будущем Midjourney планирует сделать персонажей, миры и другие материалы, созданные в Patchwork, совместимыми с другими приложениями для сторителлинга. Это позволит, например, оживить персонажей в интерактивных сеттингах и редактировать текст истории с помощью новых интерфейсов для творческого письма.
updates.midjourney.com

✔️ Fujitsu представила 144-ядерный процессор Monaka для центров обработки данных.

Fujitsu представила прототип своего нового процессора Monaka, разработанного на архитектуре Armv9 и предназначенного для использования в центрах обработки данных. Процессор включает 144 ядра, распределенных по четырем 36-ядерным чиплетам, изготовленным по 2-нм техпроцессу TSMC.

Чиплеты расположены поверх SRAM-плиток, произведенных по 5-нм техпроцессу, и соединены с ними с помощью гибридной медной связи. Monaka также оснащен контроллером памяти DDR5, интерфейсом PCIe 6.0 с CXL 3.0 для подключения ускорителей. Ожидается, что Monaka будет доступен в 2027 финансовом году.
tomshardware.com

✔️ Ученые предлагают создать виртуальные клетки тканей человека с помощью ИИ.

Группа исследователей из Стэнфордского университета, Genentech и Chan-Zuckerberg Initiative считают, что современные достижения в области ИИ и большие массивы экспериментальных данных о биологии человека открывают беспрецедентные возможности для моделирования живых клеток.

Виртуальная клетка сможет воспроизводить поведение молекул, клеток, а в будущем - тканей и органов человека. Такая модель позволит глубже понять принципы работы здоровых клеток и выявить причины заболеваний. По мнению авторов, успешная виртуальная клетка должна обладать универсальностью, предсказывать функции и поведение клеток, а также позволять проводить эксперименты "in silico" для проверки гипотез.
news.stanford.edu

✔️ Phi-4 - новая блестящая работа Microsoft

✔️ Гарвардский университет и Google выпустят базу данных из 1 млн. книг для обучения ИИ.

База данных включает различные жанры, языки и авторов, включая Диккенса, Данте и Шекспира, которые больше не защищены авторским правом в силу своего возраста. Набор книг создан на основе многолетнего проекта сканирования книг Google Books, и Google будет участвовать в ее распространении.

База данных предназначена для того, чтобы "создать равные условия" доступа к массиву данных всем - от исследовательских лабораторий до стартапов в области ИИ, - кто хочет обучать свои LLM. В настоящее время база данных находится на стадии доработки и в скором времени будет доступна для широкого использования.
institutionaldatainitiative.org

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍20🔥12👀1
⚡️ DeepSeek-VL2: релиз набор VL-MoE моделей нового поколения.

DeepSeek-VL2 - усовершенствованная серия VLM c Mixture-of-Experts (MoE), которая значительно превосходит DeepSeek-VL.
 
Модели семейства ориентированы на задачи визуальных ответов на вопросы, оптического распознавания символов, понимания документов/таблиц/схем и визуального обоснования.

DeepSeek-VL2 включает три основных модуля:

🟠Визуальный энкодер SigLIP-SO400M-384, который использует динамическую стратегию разбиения изображения на фрагменты. Эта стратегия позволяет эффективно обрабатывать изображения высокого разрешения с различными соотношениями сторон.

🟠VL-адаптер, преобразующий визуальные элементы в формат, понятный языковой модели. Адаптер также добавляет специальные маркеры, чтобы обозначить границы строк, фрагментов и миниатюр.

🟠Языковая модель DeepSeek-MoE с механизмом MLA. MLA повышает эффективность обработки информации, сжимая kv-данные в компактный вектор. Это ускоряет обработку информации и увеличивает пропускную способность.

DeepSeek-VL2 обучается в три этапа: на первом этапе обучается MLP-соединитель, который связывает визуальный энкодер с языковой моделью, затем модель обучается на датасете из текста, изображений, аннотаций, QA и данных OCR и, в конце процесса, дообучается с учителем для улучшения ее способности понимать инструкции и вести диалог.
 
Модельная серия состоит из 3 вариантов c контекстом 4096:

🟢DeepSeek-VL2-Tiny (1B активных параметром и 3.4В общих);

🟢DeepSeek-VL2-Small (2.8B активных параметром и 16.1B общих);

🟢DeepSeek-VL2 (4.5B активных параметром и 27.5B общих).

DeepSeek-VL2 была протестирована на задачах DocVQA, ChartQA, InfoVQA, TextVQA, MMBench и показала лучшие результаты по сравнению с другими моделями MoE.

DeepSeek-VL2 эффективно использует архитектуру MoE и превосходит другие модели с аналогичным количеством активных параметров.


📌Лицензирование: DeepSeek License.


🟡Набор моделей
🟡Техотчет
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26👍195