Машинное обучение RU
17.5K subscribers
1.42K photos
177 videos
11 files
1.89K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
加入频道
Forwarded from Machinelearning
🌟 PydanticAI: фреймворк для создания AI-агентов на основе Pydantic.

PydanticAI - фреймворк для Python, созданный командой разработчиков Pydantic, который упрощает создание приложений с использованием LLM. Фреймворк имеет простой и интуитивно понятный интерфейс для взаимодействия с LLMs, поддерживающими Async OpenAI (Ollama) и openAI API (ChatGPT, Gemini и Groq), с поддержкой Anthropic в ближайшем будущем.

Основная особенность PydanticAI - система внедрения зависимостей, которая передает данные, соединения и логику в целевую модель. Она упрощает тестирование и оценку агентов и позволяет динамически формировать системные промпты и определять инструменты, доступные LLM.

PydanticAI имеет возможность потоковой обработки ответов с валидацией структурированных данных, позволяя контролировать корректность соответствие данных ожидаемому ответу, тем самым повышая эффективность и интерактивность приложений.

Для отладки и мониторинга работы агентов предусмотрена интеграция с Pydantic Logfire, с которым можно отслеживать запросы к базам данных, анализировать поведение модели и оценивать производительность.

▶️ В документации к проекту доступны примеры применения PydanticAI в сценариях:

🟢Построение Pydantic-модели на основе текстового ввода;
🟢Погодный агент;
🟢Агент поддержки клиентов банка;
🟢Генерация SQL-запросов на основе пользовательского ввода;
🟢RAG-поиск по массиву markdown-документам;
🟢Вывод результатов работы агента в терминале;
🟢Пример проверки потокового структурированного ответа на примере информации о видах китов;
🟢Простой чат-приложение.

⚠️ PydanticAI находится на ранней стадии бета-тестирования.

▶️Установка и простой пример "Hello Word" с Gemini-1.5-flash:

# Install via  PyPI
pip install pydantic-ai

# Set Gemini API key
export GEMINI_API_KEY=your-api-key

# Run example
from pydantic_ai import Agent
agent = Agent(
'gemini-1.5-flash',
system_prompt='Be concise, reply with one sentence.',
)
result = agent.run_sync('Where does "hello world" come from?')
print(result.data)
"""
The first known use of "hello, world" was in a 1974 textbook about the C programming language.
"""


📌Лицензирование: MIT License.


🟡Документация
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Agents #Framework #PydanticAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍21
Forwarded from Machinelearning
🖥 Magnetron

Этот проект был создан, с целью изучения понимания внутренней работы PyTorch и других популярных фреймворков глубокого обучения.

Главная цель проекта - создание с нуля минималистичного, но при этом мощного фреймворк глубокого обучения, который можно использовать как для исследований, так и для продакшена.

Фреймворк написан на C и Python и спроектирован так, чтобы его было легко понять и модифицировать.

Знаменитая цитат Ричарда Фейнмена - То, что я не могу создать, я не понимаю.

Создание собственного языка программирования, игрового движка и конечно фреймворка машинного обучения позволит понять, как работает современное программное обеспечение, до мельчайших деталей.

◾️GitHub
◾️Demo
◾️Docs

@ai_machinelearning_big_data

#c99 #python #framework
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥41
Forwarded from Machinelearning
🌟 InfiniteHiP: расширение контекста LLM до 3 млн. токенов на одном GPU.

InfiniteHiP - опенсорсный инструмент, разработанный сервисом deepauto.ai, который позволяет значительно расширить контекст LLM, обрабатывая до 3 миллионов токенов на одном GPU.

InfiniteHiP использует модульный иерархический алгоритм прунинга токенов, динамически отсеивая нерелевантные элементы контекста. Это позволяет ускорить обработку и обойти ограничения GPU по памяти, перенося KV-кэш в память хоста.

Прунинг-модули алгоритма избирательно отбрасывают менее важные входные токены, опираясь на разреженность шаблонов и пространственную локализацию в матрицах внимания LLM.

Алгоритм делит входную последовательность на чанки фиксированной длины и определяет аппроксимированный top-1 токен с наивысшим attention score в каждом чанке. Затем только top-K наиболее значимых чанков передаются в следующий модуль, а остальные отбрасываются.

Максимально эффективная реализация InfiniteHiP на SGLang фреймворке показывает 7.24-кратное ускорение в end-to-end декодировании на контексте в 3 млн. при использовании всего 3.34% VRAM, необходимой для Flash Attention 2.

InfiniteHiP превосходит существующие методы в задачах QA по объемным документам, обобщении и в мульти-шот ризонинге. HiP демонстрирует отличные OOL (out-of-likelihood) способности, сохраняя производительность при увеличении длины контекста, в то время как другие методы на таких задачах ощутимо деградируют.

InfiniteHiP может использоваться с любыми моделями на архитектуре Transformers.

▶️ Локальная установка и использование:

git clone [email protected]:DeepAuto-AI/hip-attention.git
cd hip-attention

conda create --name hip python=3.11
conda activate hip

pip install -e "."
# Optional for development
pip install -e ".[dev]"

# Optional, depends on your CUDA environment
export CUDACXX=/usr/local/cuda/bin/nvcc
# Dependencies that requires --no-build-isolation
pip install -e ".[no_build_iso]" \
--no-build-isolation \
--verbose
# SGLang with OpenAI API support for serving
pip install -e ".[sglang]" \
--no-build-isolation \
--verbose \
--find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

# Access the `hip` package from any project
import torch
from hip import hip_attention_12, HiPAttentionArgs12

device = 'cuda'

batch_size = 1
kv_len = 128 * 1024
q_len = 32 * 1024
num_heads = 32
num_kv_heads = 8
head_dims = 128
dtype = torch.bfloat16

q = torch.randn(
(batch_size, q_len, num_heads, head_dims),
dtype=dtype,
device=device
)
k = torch.randn(
(batch_size, kv_len, num_kv_heads, head_dims),
dtype=dtype,
device=device,
)
v = k.clone()

output, metadata = hip_attention_12(q=q, k=k, v=v, args=HiPAttentionArgs12())
print(output.shape)

# > torch.Size([1, 32768, 32, 128])


📌Лицензирование: FSL-1.1-MIT


🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #InfiniteHiP #Framework
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
Forwarded from Machinelearning
🌟 V-Triune от MiniMax: RL для VLM.

V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления.

В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки.

Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.


Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями.

На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность.

Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta:

🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B;
🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321;
🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct.

⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #RL #Framework #MiniMax
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥2