The Perils of Optimizing Learned Reward Functions: Low Training Error Does Not Guarantee Low Regret
Created by
Haebom
저자
Lukas Fluri, Leon Lang, Alessandro Abate, Patrick Forre, David Krueger, Joar Skalse
개요
강화학습에서 의도된 작업을 포착하는 보상 함수를 명세하는 것은 매우 어려울 수 있습니다. 보상 학습은 보상 함수를 학습하여 이 문제를 해결하고자 합니다. 그러나 학습된 보상 모델은 데이터 분포에서 오류가 낮을 수 있지만, 그 후 큰 후회를 가진 정책을 생성할 수 있습니다. 우리는 이러한 보상 모델이 오류-후회 불일치를 갖는다고 말합니다. 오류-후회 불일치의 주요 원인은 정책 최적화 중에 일반적으로 발생하는 분포 이동입니다. 본 논문에서는 수학적으로 보상 모델의 충분히 낮은 예상 테스트 오류가 낮은 최악의 경우 후회를 보장하지만, 임의의 고정된 예상 테스트 오류에 대해 오류-후회 불일치가 발생할 수 있는 현실적인 데이터 분포가 존재함을 보여줍니다. 그런 다음 RLHF와 같은 방법에서 일반적으로 사용되는 정책 규제 기법을 사용하더라도 유사한 문제가 지속됨을 보여줍니다. 우리는 우리의 결과가 보상 모델을 학습하는 향상된 방법과 그 품질을 신뢰할 수 있게 측정하는 더 나은 방법에 대한 이론적 및 실증적 연구를 자극하기를 바랍니다.
시사점, 한계점
•
시사점: 보상 모델의 예상 테스트 오류가 낮다고 해서 항상 낮은 후회를 보장하지 않으며, 오류-후회 불일치 문제가 존재함을 수학적으로 증명했습니다. 정책 규제 기법조차도 이 문제를 완전히 해결하지 못함을 보였습니다. 이는 보상 모델 학습 및 평가 방법 개선 연구의 필요성을 시사합니다.
•
한계점: 본 논문은 이론적 분석에 집중하며, 실제 데이터셋이나 알고리즘에 대한 실험적 검증은 제시하지 않았습니다. 또한, 오류-후회 불일치 문제를 해결하기 위한 구체적인 방법론을 제시하지는 않았습니다.