본 논문은 대규모 언어 모델(LLM)의 사용자 의도 및 정확성 기준과의 정렬을 위한 지도 학습 및 선호도 기반 미세 조정 기법을 다룹니다. 실제 세계의 훈련 데이터는 종종 편향, 데이터셋 인공물 또는 기타 "지름길" 특징으로 인한 허위 상관 관계를 나타내며, 이는 모델의 성능이나 일반화에 타격을 줄 수 있습니다. 본 연구는 다양한 합성 작업 및 허위 상관 관계 조건에서 지도 미세 조정(SFT), 직접 선호도 최적화(DPO), KTO(Kahneman-Tversky Optimization) 세 가지 사후 훈련 알고리즘을 체계적으로 평가합니다. 작업은 수학적 추론, 제약된 지시 사항 따르기, 문서 기반 질문 답변을 포함하며, 허위 상관 관계의 정도(10% 대 90%)를 다르게 하고 "특징 모호성" 및 "분포 협소성"이라는 두 가지 형태의 인공물을 조사합니다. 결과는 모델이 높은 허위 상관 관계 하에서 항상 저하되는 것은 아니지만 종종 저하될 수 있음을 보여줍니다. 선호도 기반 방법(DPO/KTO)은 수학적 추론 작업에서 상대적인 견고성을 보일 수 있습니다. 반대로, SFT는 복잡하고 맥락이 많은 작업에서 더 강력한 성능을 유지합니다. 이러한 결과는 모든 시나리오에서 단일 사후 훈련 전략이 보편적으로 우수한 것은 아니며, 최상의 선택은 대상 작업의 유형과 허위 상관 관계의 특성에 따라 달라짐을 강조합니다.