본 논문은 인간 피드백으로부터 강화 학습(RLHF)의 높은 계산 비용과 훈련 불안정성 문제를 해결하기 위해, 모델 재훈련 없이 출력을 제어하는 가치 유도 디코딩 기법을 제안합니다. 기존 가치 유도 디코딩 방법들의 정확도 저하 문제를 해결하기 위해, 다양한 경로를 탐색하여 추정 분산을 줄이는 Monte Carlo Value Estimation과 가치 유도 정책으로부터 수집된 경로를 통해 가치 추정을 점진적으로 개선하는 Iterative On-Policy Optimization이라는 두 가지 주요 구성 요소를 갖는 반복적 가치 함수 최적화(Iterative Value Function Optimization) 프레임워크를 제시합니다. 텍스트 요약, 다회차 대화, 지시 사항 따르기 등 다양한 작업에 대한 실험을 통해 제안된 방법의 효과성을 검증하고, 가치 함수 최적화를 통해 계산 비용을 크게 줄이면서 언어 모델을 효과적으로 정렬할 수 있음을 보여줍니다.