Forwarded from Machinelearning
TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.
Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
По сравнительным бенчмаркам с другими популярными методами машинного обучения, такими как трансформеры и рекуррентные нейронные сети, было обнаружено, что в некоторых задачах TTT работает лучше.
Этот революционный метод позволит приблизиться к созданию более гибких и эффективных моделей искусственного интеллекта, способных лучше адаптироваться к новым данным в реальном времени.
На Github опубликованы адаптации метода:
- адаптация под Pytorch
- адаптация под JAX
@ai_machinelearning_big_data
#Pytorch #Jax #TTT #LLM #Training
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥1
Forwarded from Machinelearning
Обучение LLM требует огромных вычислительных ресурсов. Поскольку размеры моделей исчисляются миллиардами параметров, специализированные методы распараллеливания необходимы для того, чтобы сделать обучение выполнимым.
В статье "Исследование параллельных стратегий с Jax" подробно рассматривается реализация некоторых стратегий масштабирования в Jax - фреймворке Python, предназначенном для высокопроизводительных численных вычислений с поддержкой ускорителей GPU и TPU.
Стратегии, описанные в туториале с примерами кода и иллюстрациями:
@ai_machinelearning_big_data
#AI #ML #LLM #JAX #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2