본 논문은 인간 피드백을 통한 강화 학습(RLHF)에서 대규모 언어 모델(LLM)의 보상 과최적화 문제를 해결하기 위해 행동 지원 정책 최적화(BSPO) 기법을 제안합니다. 기존 RLHF는 보상 모델의 외삽 오류로 인해 분포 외(OOD) 응답에 대한 평가가 부정확하여 과최적화 문제를 야기합니다. BSPO는 보상 모델 훈련 데이터셋의 다음 토큰 분포를 행동 정책으로 정의하여 보상 모델의 분포 내(ID) 영역을 모델링합니다. 이를 바탕으로 행동 지원 벨만 연산자를 도입하여 값 함수를 규제하고, 분포 내 응답에는 영향을 미치지 않으면서 분포 외 응답의 값을 벌칙함으로써 OOD 응답 생성을 줄이고 과대평가를 방지합니다. 이론적으로 BSPO는 최적의 행동 지원 정책에 수렴할 때까지 지원 정책의 단조로운 개선을 보장합니다. 실험 결과, BSPO는 기존 방법들보다 OOD 평가로 인한 보상 과최적화 방지 및 최적의 ID 정책 발견에 효과적임을 보여줍니다.