본 논문은 대규모 언어 모델(LLM)의 복잡한 오류 식별 및 진단 능력 향상을 위한 새로운 프레임워크인 "숨바꼭질 게임(HSG)"을 제안합니다. 기존 연구들이 단순한 오류에만 초점을 맞춘 것과 달리, HSG는 은밀한 오류를 생성하는 "Sneaky"와 이를 진단하는 "Diagnosis"라는 두 가지 역할을 가진 적대적 프레임워크를 통해 동적인 오류 생성 및 진단을 수행합니다. 수학 문제 풀이를 통해 실험한 결과, HSG는 GPT-4o와 같은 기존 모델보다 16.8%~31.4% 높은 오류 진단 정확도를 달성했습니다. 또한, 향후 연구를 위한 벤치마크로서 속임수가 있는 오류와 진단 주석이 포함된 데이터셋을 공개합니다.