TODO: Enhancing LLM Alignment with Ternary Preferences
Created by
Haebom
저자
Yuxiang Guo, Lu Yin, Bo Jiang, Jiaqi Zhang
개요
본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위해 인간 의도와의 정렬을 개선하는 새로운 방법을 제시합니다. 기존의 직접 선호도 최적화(DPO) 방법은 이진 Bradley-Terry(BT) 모델에 의존하여 인간 선호도의 복잡성, 특히 노이즈가 있거나 일관성 없는 레이블 및 빈번한 동점의 경우를 제대로 포착하지 못하는 한계가 있습니다. 이를 해결하기 위해, 본 논문은 동점을 명시적으로 포함하는 BT 모델의 확장판인 Tie-rank Oriented Bradley-Terry (TOBT) 모델을 제안합니다. 이를 기반으로, TOBT의 3진 순위 시스템을 활용하여 선호도 정렬을 개선하는 새로운 정렬 알고리즘인 Tie-rank Oriented Direct Preference Optimization (TODO)를 제시합니다. Mistral-7B 및 Llama 3-8B 모델에 대한 평가 결과, TODO는 분포 내 및 분포 외 데이터셋 모두에서 DPO보다 선호도 모델링 성능이 우수함을 보였습니다. MT Bench, Piqa, ARC-c, MMLU와 같은 벤치마크를 사용한 추가 평가에서도 TODO의 우수한 정렬 성능이 입증되었습니다. 특히, TODO는 이진 선호도 정렬에서도 강력한 결과를 보여, 그 다양성과 LLM 정렬에 대한 광범위한 통합 가능성을 강조합니다. 구현 세부 정보는 https://github.com/XXares/TODO 에서 확인할 수 있습니다.