Forwarded from The Devs
Complete code examples for Machine Translation with Attention, Image Captioning, Text Generation, and DCGAN implemented with tf.keras and eager execution
“Complete code examples for Machine Translation with Attention, Image Captioning, Text Generation…” https://medium.com/tensorflow/complete-code-examples-for-machine-translation-with-attention-image-captioning-text-generation-51663d07a63d
#tensorflow #tutorial
“Complete code examples for Machine Translation with Attention, Image Captioning, Text Generation…” https://medium.com/tensorflow/complete-code-examples-for-machine-translation-with-attention-image-captioning-text-generation-51663d07a63d
#tensorflow #tutorial
Medium
Complete code examples for Machine Translation with Attention, Image Captioning, Text Generation, and DCGAN implemented with tf.keras…
By Yash Katariya, Developer Programs Engineer Intern
⚡️ Finetuning for Text Classification
Если вы ищете чем занаться на выходных и хотите немного почитать и покодить,- вот свежая глава из книги Build an LLM from Scratch, по настройке GPT-модели для классификации СПАМ-сообщений с точностью до 96%.
Модель небольшая и обучение на MacBook Air M3 занимает ~ 5 минут.
▪ Github
#book #tutorial #llm
@ai_machinelearning_big_data
Если вы ищете чем занаться на выходных и хотите немного почитать и покодить,- вот свежая глава из книги Build an LLM from Scratch, по настройке GPT-модели для классификации СПАМ-сообщений с точностью до 96%.
Модель небольшая и обучение на MacBook Air M3 занимает ~ 5 минут.
▪ Github
#book #tutorial #llm
@ai_machinelearning_big_data
👍30🔥10❤3😁1
Большой, подробный и лаконичный туториал в 2-х частях по оптимизации матричного умножения на микроархитектуре Hopper (H100) с использованием библиотеки CUTLASS.
CUTLASS - это набор реализаций алгоритмов линейной алгебры (шаблонов) для использования на CUDA в задачах глубокого обучения, инженерных расчетах и научных исследованиях.
В этой части подробно рассматривается концепция «ядерных матриц» и «матричных дескрипторов», которые нужны для эффективной работы с WGMMA.
В конце туториала кратко описывается реализация конвейеризации в GEMM-ядрах для архитектуры Ampere.
@ai_machinelearning_big_data
#AI #ML #CUTLASS #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤5🔥4🎉3
Обучение LLM требует огромных вычислительных ресурсов. Поскольку размеры моделей исчисляются миллиардами параметров, специализированные методы распараллеливания необходимы для того, чтобы сделать обучение выполнимым.
В статье "Исследование параллельных стратегий с Jax" подробно рассматривается реализация некоторых стратегий масштабирования в Jax - фреймворке Python, предназначенном для высокопроизводительных численных вычислений с поддержкой ускорителей GPU и TPU.
Стратегии, описанные в туториале с примерами кода и иллюстрациями:
@ai_machinelearning_big_data
#AI #ML #LLM #JAX #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤6🔥3🎉2🤝1
Учебник Стэнли Чана, профессора кафедры электротехники, вычислительной техники и статистики Purdue University (США), содержит ультраполезные знания в области диффузионных моделей в контексте обработки изображений и CV. Он доступно и детально объясняет сложные концепции и подходит как опытным профессионалам, так и тем, кто только начинает изучать эту область.
Для профессионалов, уже работающих с диффузионными моделями или стремящихся углубить свои знания, этот учебник послужит отличным ресурсом, который предоставляет прочную основу для понимания и применения концепций в прикладных задачах.
Вариационный автоэнкодер (VAE)
Вероятностная модель диффузионного денойза (DDPM)
Динамика сопоставления баллов Ланжевена (SMLD)
Стохастическое дифференциальное уравнение (SDE)
Уравнения Ланжевена и Фоккера-Планка
@ai_machinelearning_big_data
#AI #ML #Tutorial #Duffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤11🔥9❤🔥2
Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.
В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.
Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.
@ai_machinelearning_big_data
#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍11❤5
Репозиторий на Github c прикладными упражнениями, ноутбуками с кодом для разработки, предварительной подготовки и тонкой настройке LLM-модели типа GPT по одной из лучших книг о построении LLM с нуля.
В книге вы узнаете и поймете, как работают большие языковые модели изнутри, создавая собственную LLM шаг за шагом, c подробным объяснением каждого этапа понятным языком, диаграммами и примерами.
Метод, описанный в книге демонстрирует подход, используемый при создании крупных фундаментальных моделей, таких как те, что лежат в основе ChatGPT.
В репозитории к каждой главе книги соответствуют несколько (3-4) прикладных примеров в формате ipynb или в виде исполняемого python-скрипта. Код ориентирован на широкую аудиторию, разработан для запуска на обычных ноутбуках и не требует специализированного оборудования.
Настройка
Глава 2: Работа с текстовыми данными
Глава 3: Код механизмов внимания
Глава 4: Реализация модели GPT с нуля
Глава 5: Предварительное обучение на немаркированных данных
Глава 6: Тонкая настройка для классификации
Глава 7: Тонкая настройка для следования инструкциям
@ai_machinelearning_big_data
#AI #ML #LLM #Tutorial #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69🔥20❤11🥰2👏1
Статья на HF из цикла Open-Source AI Cookbook c подробным пошаговым описанием и примерами кода процесса тонкой настройки VLM Qwen2-VL-7B в области ответов на вопросы по изображениям с использованием библиотеки Transformer Reinforcement Learning (TRL). В качестве целевого датасета используется ChartQA, который содержит диаграммы разных типов в паре с вопросами и ответами.
Для обучения модели демонстрируется методы Supervised Fine-Tuning (SFT) с использованием библиотеки TRL, QLoRA, которая квантует веса LoRA, обеспечивая более низкие требования к памяти и повышенную эффективность обучения.
Отдельным разделом выделен процесс подготовки данных к обучению с помощью функции
collate_fn
, которая выполняет корректное извлечение и пакетную обработку данных и их форматирование для модели. Обучение модели осуществляется с помощью класса SFTTrainer
.В результате модель научилась отвечать на вопросы в соответствии с используемым датасетом. Оценить готовый файнтюн можно в демо на HF Space.
Дополнительно, в качестве альтернативы тонкой настройке, рассматривается использование промтинга с добавлением системного сообщения для контекстуализации ввода для модели, чтобы улучшить точность ее ответов.
@ai_machinelearning_big_data
#AI #ML #VLM #HuggingFace #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤5🔥5🥰1😁1🙈1
Репозиторий на Github c набором ipynb-туториалов по Prompt Engineering для освоения методов создания оптимальных промптов для модели Qwen2.5-14B.
Руководство разделено на 9 глав с практическими упражнениями и приложением с "продвинутыми" методами. В каждой главе есть "Example Playground" для экспериментов с примерами и наблюдения за изменениями в инференсе Ollama.
Руководство использует модель Qwen 2.5-14B, но все материалы подходят и для модели Qwen 2.5-7B.
Начальный уровень
Средний уровень
Продвинутый уровень
Приложение: За пределами стандартных подсказок
@ai_machinelearning_big_data
#AI #ML #LLM #Github #Tutorial #Ollama
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23🔥16👍13👏1
This media is not supported in your browser
VIEW IN TELEGRAM
📲 Diffusion Explainer - визуализация, которая поможет понять работу моделей, основанных на диффузии:
⭐️Визуал, который будет понятен каждому
⭐️Работает в браузере
⭐️Отличное наглядное объяснение того, как модели диффузии генерируют изображения.
https://poloclub.github.io/diffusion-explainer
▪Diffusion explainer
▪Github
▪Статья
▪Видео
@ai_machinelearning_big_data
#diffusion #tutorial #ml
⭐️Визуал, который будет понятен каждому
⭐️Работает в браузере
⭐️Отличное наглядное объяснение того, как модели диффузии генерируют изображения.
https://poloclub.github.io/diffusion-explainer
▪Diffusion explainer
▪Github
▪Статья
▪Видео
@ai_machinelearning_big_data
#diffusion #tutorial #ml
❤54👍26🔥21