본 논문은 다중 에이전트 강화 학습(MARL)에서 다른 에이전트의 숨겨진 행동(hidden gifts)으로 인한 이익이 발생하는 상황을 연구합니다. 특히, 에이전트들이 공유 키를 이용하여 각자의 문을 열고 보상을 획득하는 그리드 월드 환경에서, 키를 다른 에이전트를 위해 놓는 행위(숨겨진 선물)가 집단 보상에 필수적이지만, 이 행위가 다른 에이전트에게는 보이지 않는다는 점에 주목합니다. 실험 결과, 여러 최첨단 MARL 알고리즘들이 이러한 집단 보상을 얻는 데 실패했으며, 독립적인 모델-프리 정책 경사 알고리즘조차도 숨겨진 행동에 대한 정보 없이는 실패함을 보여줍니다. 하지만, 독립 에이전트에게 자신의 행동 이력 정보를 제공하거나, 학습 인식(learning aware) 접근법에서 영감을 받은 보정 항을 추가하면 집단 보상을 얻는 데 성공률을 높일 수 있음을 확인했습니다.