본 논문은 인간-로봇 상호작용을 불완전 정보 일반합 동적 게임으로 모델링하고, 각 에이전트의 목적 함수가 서로에게 명시적으로 알려지지 않는 상황에서 균형 정책을 해결하는 어려움을 다룹니다. 기존 연구에서 한 에이전트를 완전한 정보를 가진 전문가로 가정하는 단순화된 접근 방식의 한계를 지적하며, 이로 인한 편향된 추정 및 조정 실패 문제를 해결하기 위해 비선형 동료 인식 비용 추정(N-PACE) 알고리즘을 제안합니다. N-PACE는 비선형 일반합 게임의 반복 선형 이차(LQ) 근사를 사용하여 각 에이전트가 상대 에이전트의 학습 역학을 명시적으로 모델링하면서 그들의 목적 함수를 추론함으로써, 상대 에이전트의 알려지지 않은 목적 함수를 빠르고 편향되지 않게 학습할 수 있도록 합니다. 또한, 상대방의 학습 역학을 명시적으로 모델링함으로써 이러한 다중 에이전트 시스템에서 의도 전달을 가능하게 함을 보여줍니다.