본 논문은 강화학습 에이전트가 보상과 관측치 간의 허위 상관관계를 악용하는 정책 혼란(policy confounding) 현상을 다룹니다. 에이전트의 정책이 과거 및 미래 관측 변수 모두에 영향을 미쳐 피드백 루프를 생성하고 일반화 능력을 저해하는 문제를 지적합니다. 이 논문에서는 정책 경사 방법에서 일반적으로 사용되는 이점 함수(advantage function)가 기울기 추정의 분산을 줄이는 것뿐만 아니라 정책 혼란의 영향을 완화한다는 것을 보여줍니다. 상태-행동 쌍의 가치를 상태 표현에 상대적으로 조정함으로써, 이점 함수는 현재 정책에서 더 가능성이 높은 상태-행동 쌍의 가중치를 낮추고, 허위 상관관계를 깨뜨리며 에이전트가 인과적 요인에 집중하도록 장려합니다. 이점 함수를 사용한 학습이 궤적 외 성능을 향상시킨다는 분석적 및 경험적 증거를 제시합니다.