본 논문은 대규모 언어 모델(LLM)의 출력이 인간의 선호도에 부합하도록 하는 방법을 제시합니다. 기존의 직접 선호도 최적화(DPO) 방법은 개별 토큰의 중요도 차이를 고려하지 않고, 선호도 데이터의 노이즈에 민감하다는 한계를 가지고 있습니다. 본 논문에서는 기울기 기반 토큰 중요도 가중치를 도입하여 중요 토큰을 동적으로 우선순위화하고, 세 가지 손실 함수를 통해 모델 출력이 인간 선호도에 가깝게, 비선호도에는 멀어지도록 유도하는 토큰 중요도 유도 직접 선호도 최적화(TI-DPO)를 제안합니다. 실험 결과, TI-DPO는 DPO 및 다른 강화 학습 기반 미세 조정(RLHF) 방법보다 높은 정확도와 더 강력한 생성 다양성을 달성하며, 더 안정적이고 계산 효율적인 솔루션을 제공함을 보여줍니다.