⚡️ Подборка больших и полезных датасетов для работы с данных:
Sky-T1-data-17k — универсальный датасет, созданный для тренировки модели Sky-T1-32B, представляющей собой развитие модели MiniMax-Text-01. Эта модель уверенно опережает GPT-4o и Gemini-2 на тестах с длинными контекстами.
XMIDI Dataset — масштабный музыкальный датасет с детальными метками эмоций и жанров. Включает 108 023 MIDI-файлов, что делает его самым крупным набором данных подобного типа.
AceMath-Data — серия датасетов, использованных компанией NVIDIA для обучения своей топовой модели AceMath-72B-Instruct. Эта модель заметно превосходит GPT-4o и Claude-3.5 Sonnet в решении математических задач.
@sql_lib
#sql #datasets #opensource
Sky-T1-data-17k — универсальный датасет, созданный для тренировки модели Sky-T1-32B, представляющей собой развитие модели MiniMax-Text-01. Эта модель уверенно опережает GPT-4o и Gemini-2 на тестах с длинными контекстами.
XMIDI Dataset — масштабный музыкальный датасет с детальными метками эмоций и жанров. Включает 108 023 MIDI-файлов, что делает его самым крупным набором данных подобного типа.
AceMath-Data — серия датасетов, использованных компанией NVIDIA для обучения своей топовой модели AceMath-72B-Instruct. Эта модель заметно превосходит GPT-4o и Claude-3.5 Sonnet в решении математических задач.
@sql_lib
#sql #datasets #opensource