본 논문은 인간 피드백으로부터 강화 학습(RLHF)의 높은 계산 비용과 훈련 불안정성 문제를 해결하기 위해, 모델 재훈련 없이 출력을 제어하는 비용 효율적인 대안으로서 가치 유도 디코딩, 특히 가치 유도 방식에 초점을 맞추고 있습니다. 가치 함수의 정확성이 중요하며, 부정확성은 최적이 아닌 의사결정과 성능 저하로 이어질 수 있다는 점을 지적합니다. 기존 방법들이 최적 가치 함수를 정확하게 추정하는 데 어려움을 겪는다는 점을 고려하여, 몬테 카를로 가치 추정과 반복적 온-폴리시 최적화라는 두 가지 주요 구성 요소를 통해 이러한 한계를 해결하는 새로운 프레임워크인 반복적 가치 함수 최적화(Iterative Value Function Optimization)를 제안합니다. 텍스트 요약, 다회차 대화, 지시 사항 따르기 등 광범위한 실험을 통해 언어 모델 정렬에서 가치 유도 디코딩 접근 방식의 효과를 보여주며, 계산 비용을 크게 줄이는 동시에 효율적이고 효과적인 제어를 위한 원칙적인 가치 함수 최적화를 활용함을 강조합니다.