Anchored Direct Preference Optimization (ADPO)는 인간 피드백에 맞춰 모델을 정렬하는 Direct Preference Optimization (DPO)의 한계를 극복하기 위해 제안된 새로운 프레임워크입니다. ADPO는 soft, listwise supervision으로부터 학습하며, 정책 업데이트를 reference model에 고정(anchor)시키는 방식을 사용합니다. 이 anchoring 메커니즘은 softmax Fisher information metric을 통해 암묵적인 trust region을 정책 업데이트에 적용합니다. 실험 결과, 온라인 탐색 환경에서는 동적 앵커가, 오프라인 증류에서는 고정 앵커가 더 효과적임을 확인했습니다.