본 논문은 다중 에이전트 강화 학습(MARL)에서 다른 에이전트의 숨겨진 행동(hidden gifts)으로부터 이익을 얻는 상황을 연구합니다. 간단한 그리드 월드 환경에서 에이전트들이 각자의 문을 열어 개별 보상을 얻고, 모든 에이전트가 문을 열면 더 큰 집단 보상을 얻는 시나리오를 설정합니다. 문을 여는 데 필요한 열쇠는 하나뿐이며, 에이전트들은 열쇠를 사용한 후 다른 에이전트들을 위해 놓아두어야만 집단 보상을 얻을 수 있습니다. 하지만 열쇠를 놓았다는 정보는 다른 에이전트에게 전달되지 않으므로, 열쇠를 놓는 행위는 숨겨진 선물이 됩니다. 논문은 여러 최첨단 강화 학습 알고리즘들이 이 간단한 과제에서 집단 보상을 얻는 데 실패함을 보여줍니다. 독립적인 모델-프리 정책 경사 알고리즘은 자체 행동 이력 정보를 제공받으면 과제를 해결할 수 있지만, MARL 알고리즘은 행동 이력 정보가 있어도 과제를 해결하지 못합니다. 마지막으로, 학습 인식 접근 방식에서 영감을 얻은 보정 항을 도출하여 독립적인 에이전트의 학습 분산을 줄이고 집단적 성공으로 더 안정적으로 수렴하도록 돕습니다.