본 논문은 대규모 언어 모델(LLM)의 사후 훈련에서 지시 따르기에서 복잡한 추론 과제로 발전함에 따라, 서로 다른 데이터가 미세 조정 역학에 어떻게 영향을 미치는지에 대한 이해가 여전히 미개척 상태임을 다룹니다. 저자들은 LLM 사후 훈련을 위한 저품질/고품질 지시 및 추론 데이터에 의해 유도된 계층별 기울기의 스펙트럼 분석을 제시합니다. 분석 결과, IFD, InsTag, Difficulty, Reward와 같이 널리 연구된 데이터 평가 지표는 기울기의 특이값 분해(SVD)에서 계산된 스펙트럼 특성으로 설명하고 통합할 수 있음을 보여줍니다. 특히, 고품질 데이터는 일반적으로 낮은 핵 노름과 높은 유효 계급과 관련이 있습니다. 특히 유효 계급은 미묘한 품질 차이를 포착하는 데 있어 핵 노름보다 더 나은 강건성과 해상도를 보입니다. 예를 들어, 추론 데이터는 지시 데이터보다 훨씬 높은 유효 계급을 달성하여 더 복잡한 작업에서 더 풍부한 기울기 구조를 의미합니다. 실험을 통해 모델 크기에 관계없이 동일한 계열의 모델은 유사한 기울기 패턴을 공유하는 반면, 서로 다른 모델 계열은 상당히 다름을 강조합니다. 본 연구는 지시 및 추론 데이터에서 데이터 품질의 영향에 대한 통합된 관점을 제공하여 데이터 품질과 훈련 안정성 간의 상호 작용을 밝히고 사후 훈련을 위한 더 나은 데이터 탐색 전략 개발에 대한 새로운 통찰력을 제공합니다.