RLHF는 인간의 가치에 기계 학습 시스템을 맞추기 위해 선호도 모델링에 의존하지만, 무작위 쌍 샘플링과 Bradley-Terry 모델링 방식은 제한된 주석 예산 하에서 통계적으로 제한적이고 비효율적입니다. 이 연구에서는 RLHF에서 선호도 추론을 위한 대안적인 샘플링 및 평가 전략을 탐구하며, 게임 이론, 통계, 사회 선택 이론 등에서 영감을 얻었습니다. 가장 성능이 좋은 방법인 Swiss InfoGain은 proxy mutual-information-gain 페어링 규칙을 사용하여 스위스 토너먼트 시스템을 활용하여 제한된 주석 예산에서 다른 모든 방법보다 뛰어난 성능을 보이며, 샘플 효율성 또한 높습니다. 또한 고용량 설정에서도 Bradley-Terry 기준선보다 우수한 대안을 식별할 수 있습니다. 실험 결과에 따르면 적응형, 자원 인식 전략은 중복성을 줄이고 견고성을 향상시키며 선호도 학습에서 통계적으로 유의미한 개선을 보였으며, 이는 RLHF 파이프라인에서 정렬 품질과 인간 작업량의 균형을 맞추는 것이 중요하다는 것을 강조합니다.