본 논문은 사후 학습 단계에서 지속적으로 등장하는 다수의 instruction-tuning 데이터셋의 혼합을 동적으로 조정하고 최적화하는 방법인 DynamixSFT를 제안합니다. 이는 다중 팔 밴딧 문제로 공식화되며, Prior-scaled Boltzmann Exploration을 통해 업데이트된 샘플링 분포를 원래 데이터셋 비율에 부드럽게 고정하여 데이터셋의 다양성과 적용 범위를 유지합니다. 1-Step Look-ahead Reward를 사용하여 샘플링 확률을 업데이트하며, 이는 데이터셋이 현재 모델 성능 향상에 얼마나 기여하는지를 반영합니다. 16개의 instruction-tuning 데이터셋으로 구성된 Tulu-v2-mixture 컬렉션에 적용한 결과, 10개의 벤치마크에서 최대 2.2%의 성능 향상을 달성했습니다. 또한, 방법의 적응적 동역학에 대한 심층적인 통찰력을 제공하기 위해 포괄적인 분석과 시각화를 제공합니다.