본 논문은 보상 함수가 인간의 목표를 정확하게 반영하지 못하고, 종착 목표(terminal goals)와 수단 목표(instrumental goals)가 혼재되어 설계되는 문제를 다룬다. 수단 목표와 종착 목표의 약간의 혼동만으로도 강화 학습의 성능이 크게 저하될 수 있음을 간단한 예시를 통해 보여주고, 이러한 문제가 보상 학습의 일반적인 접근 방식에서 어떻게 발생하며 실제 환경에서 어떻게 나타나는지 논의한다.
시사점, 한계점
•
시사점: 강화 학습에서 보상 함수 설계 시 종착 목표와 수단 목표의 명확한 구분이 중요함을 강조하고, 보상 함수의 오류가 실제 성능에 미치는 심각한 영향을 보여준다. 보상 학습 과정에서 발생할 수 있는 문제점을 이해하고 개선 방향을 모색하는 데 도움을 준다.
•
한계점: 제시된 예시가 간단하여 실제 복잡한 환경에 대한 일반화 가능성이 제한적일 수 있다. 보상 함수의 오류를 해결하기 위한 구체적인 해결 방안이나 알고리즘 제안은 부족하다.