Производительность LLM напрямую зависит от правильного выбора и пропорций наборов данных для обучения, например, юридических текстов, кода, математических формул.
Существующие методы выбора оптимального соотношения данных для обучения (data mixing) варьируются от подбора регрессионных моделей на основе результатов обучения до динамического обновления пропорций в процессе обучения.
Эмпирические исследования показывают, что ни один из существующих методов по отдельности не превосходит простую базовую стратифицированную выборку по среднему значению перплексии.
Linear Mixing Optimization (LMO) - унифицированный алгоритм, который объединяет существующие методы data mixing. В рамках LMO задача data mixing формулируется как оптимизационная задача, цель которой - минимизация средних потерь для каждой группы данных.
AIOLI - прикладной фреймворк, основанный на LMO.
AIOLI динамически оценивает параметры смешивания в процессе обучения, используя историю значений потерь и динамические пропорции смеси.
Тесты на 6 различных наборах данных SlimPajama показали, что AIOLI превосходит стратифицированную выборку, улучшая среднюю перплексию на тестовых данных на 0.28 балла.
AIOLI особенно эффективен в условиях ограниченных вычислительных ресурсов. В ситуациях, когда пропорции смеси данных определяются на основе коротких циклов обучения, AIOLI может динамически корректировать эти пропорции на протяжении всего цикла обучения.
⚠️ В репозитории AIOLI доступны примеры скриптов запуска и подробное описание ключей запуска.
# Clone repo
git clone https://github.com/HazyResearch/aioli.git
cd aioli
# Install requirements
pip install -r requirements.txt
# Run
python main.py \ # add parameters
@ai_machinelearning_big_data
#AI #ML #LLM #DataMixing #Aioli
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥7❤5🥰1