Если вы хотите не просто запускать готовые модели, а понять, как они работают «под капотом», репозиторий Beyond-NanoGPT — то, что нужно. Этот проект аспиранта по CS Стэнфордского университета, который создан как мост между учебными примерами вроде nanoGPT и сложными наработками, предлагает десятки реализаций современных методов глубокого обучения.
Все написано с нуля на PyTorch, с детальными комментариями — идеально для тех, кто устал от абстрактных статей и беспощадного продакшн-кода. Каждая строчка кода написана так, что становится понятно, как его использовать на практике.
Застряли на уровне чтения бесконечных туториалов и хотите двигаться дальше? Этот репозиторий — отличный шаг. Он не сделает вас экспертом за неделю, но даст инструменты, чтобы разобраться в современных статьях и начать свои эксперименты. И да, здесь нет красивого веб-интерфейса или готовых SaaS-решений — только код, комментарии и ваше любопытство. Как и должно быть в ресерче.
Начать очень просто: клонируете репозиторий, ставите зависимости и можно погружаться в код. Архитектуры? Есть Vision Transformer для классификации изображений, Diffusion Transformer для генерации, ResNet и даже MLP-Mixer. Каждый скрипт — отдельный эксперимент.
Например, чтобы обучить DiT на датасете CIFAR-10, достаточно запустить
train_dit.py
. Все рассчитано на один GPU, так что даже без доступа к злым кластерам можно практиковаться. А если хочется разобраться в механизмах внимания, отдельные ноутбуки покажут, как работают Grouped-Query, линейное, разреженное или перекрестное внимание — с визуализациями и пояснениями.Проект не только про архитектуры, есть и прикладные техники. Хотите ускорить инференс языковой модели? Посмотрите реализацию KV-кэширования или спекулятивного декодирования — методы, которые сейчас активно используют в LLM-инфраструктуре.
Интересует RL? В разделе с обучением с подкреплением есть классика - DQN и PPO для Cartpole, а в планах — нейросеть для шахмат с MCTS. При этом код не просто работает, но и объясняет нюансы: почему в REINFORCE важна базовая линия, как избежать градиентного взрыва в трансформерах или чем RoPE-эмбединги лучше стандартных.
Часть разделов (Flash Attention, RLHF) пока в разработке. Но планы грандиозные: автор обещает все - от квантования весов до распределенного RL.
@ai_machinelearning_big_data
#AI #ML #LLM #Github #BeyondNanoGPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥24❤12🤣3🦄1
Популярные фреймворки превращают простые задачи в квест по разгадыванию чужого кода. Бесконечные обертки, конфликты версий, устаревшая документация… Всё это не просто раздражает, это замедляет разработку. После года борьбы с перегруженными инструментами по типу LangChain, разработчик из Microsoft Research Zachary Huang посвятил свободное время созданию Pocket Flow — фреймворка, который уместил всю магию LLM в 100 строк кода.
Pocket Flow предлагает радикально иной подход: минимализм. В основе — идея, что любой LLM-пайплайн можно представить как граф из узлов и переходов. Никаких скрытых слоёв, только логика и прозрачность.
Чтобы разобраться как работает Pocket Flow, представьте кухню, где каждый узел — зона для готовки.
BaseNode выполняет три шага: подготовка (собрать данные), выполнение (обработать запрос), постобработка (сохранить результат).
Flow управляет «рецептом»: решает, куда передать управление дальше. Все взаимодействие происходит через общее хранилище данных — как стол, на котором лежат ингредиенты для всех поваров.
Пример? Допустим, вы строите поискового агента. Создаёте узлы:
DecideAction
(решает, нужен ли поиск), SearchWeb
(ищет в интернете), AnswerQuestion
(формирует ответ). Связываете их в граф, где решение одного узла определяет следующий шаг. Если модель не знает ответ тогда запускается поиск, результаты добавляются в контекст, и цикл повторяется. Все это — пара сотен строк кода поверх ядра Pocket Flow.Главное преимущество Pocket Flow - свобода. Нет привязки к конкретным API, подключайте любые модели, даже локальные. Нет зависимостей: ваш проект остается «легким», а интерфейсы не ломаются после обновлений. Хотите кеширование запросов или потоковую обработку? Реализуйте сами, без борьбы с чужими абстракциями.
Безусловно, у минимализма есть цена: вы не получите готовых решений для каждой задачи. Но именно в этом сила Pocket Flow. Он дает контроль и понимание процесса, а не готовый, но черный ящик.
Если вы устали от фреймворков-монстров и хотите начать с чистого листа — загляните в репозиторий Pocket Flow. Там есть примеры агентов, RAG-систем и мультиагентных сценариев.
@ai_machinelearning_big_data
#AI #ML #LLM #Framework #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍66🔥25❤14🤣5🌚1
nanoVLM - проект, вдохновленный подходом nanoGPT от Andrej Karpathy, который предлагает минималистичную реализацию VLM на чистом PyTorch.
Код проекта настолько прост, что даже новичок быстро поймет, как устроены компоненты: Vision Backbone (150 строк), Language Decoder (250 строк), проекция модальностей (50 строк) и сама модель (100 строк). Все вместе с тренировочным циклом умещается в 750 строк — идеально для модификаций.
Созданная с помощью nanoVLM модель не претендует на звание прорывной, но дает отличную базу для экспериментов. Комбинация SigLIP-B/16-224-85M (визуальная часть) и SmolLM2-135M (языковая) создает компактную VLM на 222 млн. параметров. После 6 часов обучения на одном H100 GPU и 1.7 млн. примеров из датасета The Cauldron она показывает 35.3% точности на MMStar.
Начать работу можно 3 способами: клонировать репозиторий, запустить готовый Colab-ноутбук или использовать интерактивный туториал в формате ipynb. Даже если у вас нет доступа к топовому железу, эксперименты на Google Colab на бесплатном тиере вполне реальны. Установка максимально облегчена: зависимости минимальны, а логирование и загрузка параметров уже встроены.
nanoVLM отлично подойдет как образовательный проект или тренажер чтобы изучать VLM. В нем есть все для старта — от понятного кода до рабочих примеров. Если вы хотите создать свою мультимодальную модель, но боитесь сложностей, nanoVLM станет отличной песочницей для экспериментов.
@ai_machinelearning_big_data
#AI #ML #VLM #NanoVLM #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72❤25🔥21🎄2
Unsolth выложила в открытый доступ в своем репозитории на Github больше сотни готовых ipynb-блокнотов для запуска различных операций в Google Collab практически всех популярных семейств языковых моделей, BERT, TTS-моделей и VLM:
Блокноты включают пошаговые руководства и примеры для вызова инструментов, классификации, синтетических данных, подготовки сетов, инференса и файнтюна моделей и
примеры методов GRPO, DPO, SFT, Continued Pretraining, Reasoning и других.
Unsloth известна тем, что помогает делать большие языковые модели быстрее, компактнее и доступнее при помощи динамического квантования, что позволяет запускать их без сильной потери качества . Их технологии ускоряют обучение и настройку ИИ-моделей в 2 раза и экономят до 70% памяти. Инструменты Unsloth, на сегодняшний день, скачали более 10 млн раз.
Есть подробная документация по использованию, а для тех, кто больше привык к Kaggle - такой же набор блокнотов для запуска на этой платформе.
@ai_machinelearning_big_data
#AI #ML #LLM #Notebooks #Github #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥107❤25👍25❤🔥9🌭3
Tokasaurus — это движок инференса для языковых моделей в режиме высоконагруженных задач. Он максимизирует пропускную способность при работе с LLM, предлагает поддержку API OpenAI, эффективно управляет памятью и оптимизирует вычисления в сценариях, где важно одновременно обрабатывать множество запросов без задержек.
Архитектура Tokasaurus разделена на 3 компонента: веб-сервер, менеджер и модельные воркеры.
Проект учитывает растущую потребность в масштабировании и предлагает 3 типа параллелизма: дата-параллелизм (
dp_size
), пайплайн (pp_size
) и тензорный (tp_size
) с поддержкой AsyncTP.Async Tensor Parallelism в PyTorch — это техника ускорения распределенных вычислений для LLM, где операции связи (all-gather/reduce-scatter) разбиваются на асинхронные части и перекрываются с матричными умножениями (matmul) с помощью чередующихся CUDA-потоков: пока один поток вычисляет фрагмент matmul, другой параллельно передаtт данные для следующего фрагмента через P2P-копирование (NVLink + copy engines), минимизируя простои GPU.
При использовании нескольких GPU, например,
dp_size=2
и pp_size=4
, система задействует 8 GPU, создавая 2 дублирующиеся группы по 4 GPU каждая. При этом параметры управления памятью (kv_cache_size_num_tokens
, max_seqs_per_forward
) применяются к каждой дата-параллельной группе отдельно. Это позволяет тонко управлять ресурсами, исходя из контекста конкретных нагрузок.Tokasaurus поддерживает модели семейств Llama3 и Qwen2, использует технологию Hydragen для ускорения внимания над общими префиксами последовательностей.
⚠️ Проект пока молодой, поэтому некоторые функции могут быть нестабильными. Разработчики активно работают над улучшениями.
@ai_machinelearning_big_data
#AI #ML #LLM # #Tokasaurus #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51❤22🔥12🥰6😨1
Self-Hosted AI Package - это готовый шаблон на основе Docker Compose, который позволяет быстро развернуть полнофункциональную локальную среду с использованием ИИ и low-code инструментов.
Основная цель проекта: предложить разработчикам удобный и быстрый способ для начала работы с локальными ИИ-системами.
Проект активно развивается, авторы даже запустили публичную Kanban-доску, где отслеживаются внедрение новых функций и исправление ошибок.
⚠️ Перед запуском служб необходимо настроить переменные окружения для Supabase, следуя их руководству.
⚠️ Основным компонентом набора является файл docker compose, предварительно сконфигурированный с сетью и диском, поэтому больше ничего устанавливать не нужно. После установки нужно будет выполнить действия из Quick start and usage, чтобы начать работу.
# Clone repo
git clone -b stable https://github.com/coleam00/local-ai-packaged.git
cd local-ai-packaged
# For Nvidia GPU
python start_services.py --profile gpu-nvidia
# For AMD GPU users on Linux
python start_services.py --profile gpu-amd
# For Mac Run fully on CPU
python start_services.py --profile cpu
#For everyone else
python start_services.py --profile cpu
@ai_machinelearning_big_data
#AI #ML #Agents #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤70👍32🔥17❤🔥1
NXTscape - опенсорсный браузер для Mac OS на базе Chromium, где ИИ-агенты работают у вас на устройстве, а не в облаке ИТ-гигантов.
Самое важное: ключи API, история и данные никогда не покидают локальную систему. Подключаете OpenAI, Anthropic или локальные модели через Ollama и автоматизируете рутину действий в интернете.
Проект прост в переходе с Chrome: миграция занимает пару кликов, все расширения работают, его код открыт, можно форкнуть или проверить каждую строчку.
В планах на будущее: MCP Store, магазин ИИ-агентов, в нем обещают запуск прямо из адресной строки. Плюс встроенный ИИ-блокировщик рекламы, который планируют сделать умнее аналогов.
Теперь ваши 70+ вкладок могут управляться агентами, а не вы ими, достаточно скачать стабильный релиз с Github.
@ai_machinelearning_big_data
#AI #ML #Agents #Github #NXTscape
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89❤37🔥23🤔9🥰4😘1
LMCache - проект, который предлагает решение по сохранению KV-кэша на CPU, диске или даже в специализированной памяти NIXL. По сути, это инструмент, который превращает одноразовые вычисления в многократно используемые блоки, экономя время и ресурсы.
Представьте, что в чат-боте пользователи часто ссылаются на один и тот же системный промпт или историю диалога. Обычно модель заново обрабатывает эти данные, но LMCache просто загружает готовый кэш. Выгрузка KV-кэшей освобождает GPU для новых задач, уменьшая TTFT (время до первого токена) вплоть до 10 раз.
Кэши можно не только выгружать, но и делиться между разными инстансами LLM. Проще говоря, если два пользователя одновременно обращаются к разным копиям модели с одинаковым запросом, система не будет дублировать работу: результаты одного prefill’а станут доступны всем. Это работает даже для неполных префиксов, например, при частичном совпадении входных данных.
Prefill и decode, которые обычно выполняются на одном GPU, теперь могут быть разнесены: первый этап обрабатывается на мощных узлах, а второй на оптимизированных для генерации. Для распределенных систем такая техника повысит пропускную способность.
Тесты разработчиков проекта показывают, что в реальных задачах задержка снижается в 3–10 раз, а GPU-циклы экономятся на повторных вычислениях.
Проект тесно интегрируется с vLLM, в репозитории есть большой набор с примерами, документация и советы по установке и настройке.
⚠️ Калькулятор KV-кеша с выбором модели, ее типа данных и количества токенов, который поможет прикинуть, сколько VRAM можно сэкономить.
@ai_machinelearning_big_data
#AI #ML #LLM #LMCache #KVCache #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52👍41🔥19🤔6👏3
Awesome-Self-Evolving-Agents - подборка материалов по теме оптимизации агентов в концепции саморазвивающихся систем, в которой собраны работы с 2023 по 2025 год по 3-м направлениям: оптимизация одиночного агента, оптимизация мультиагентных систем и методы их оценки.
Содержание
@ai_machinelearning_big_data
#AI #ML #LLM #Agents #AwesomeList #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍59❤27🔥10