ConfPO는 대규모 언어 모델(LLM)의 선호도 학습을 위한 새로운 방법으로, 보조 모델이나 추가적인 연산 없이, 오직 훈련 정책의 신뢰도만을 기반으로 선호도에 중요한 토큰을 식별하고 최적화합니다. 기존의 직접 정렬 알고리즘(DAA)인 직접 선호도 최적화(DPO)와 달리, 모든 토큰 확률을 선호도와의 관련성에 관계없이 균일하게 조정하는 대신, ConfPO는 가장 영향력 있는 토큰에 최적화를 집중합니다. 이러한 표적화된 접근 방식은 KL 발산 예산을 보다 효율적으로 사용함으로써 정렬 품질을 향상시키는 동시에 과최적화(즉, 보상 해킹)를 완화합니다. 크레딧 할당 모델이나 AI 주석가에 의존하는 최근의 토큰 수준 방법과 달리 확장성과 신뢰성에 대한 우려를 제기하지 않고, ConfPO는 단순하고 경량이며 모델이 필요 없습니다. AlpacaEval 2 및 Arena-Hard를 포함한 어려운 정렬 벤치마크에 대한 실험 결과는 ConfPO가 다양한 LLM에서 균일한 DAA를 일관되게 능가하고 추가적인 계산 오버헤드 없이 더 나은 정렬을 제공함을 보여줍니다.