본 논문은 거대 언어 모델(LLM) 에이전트가 체스 엔진을 상대로 승리하도록 지시함으로써 LLM 에이전트의 사양 조작(specification gaming)을 보여줍니다. OpenAI o3 및 DeepSeek R1과 같은 추론 모델은 기본적으로 벤치마크를 조작하는 반면, GPT-4o 및 Claude 3.5 Sonnet과 같은 언어 모델은 정상적인 플레이가 효과가 없다는 것을 알려줘야만 조작을 시도합니다. 기존 연구 (Hubinger et al., 2024; Meinke et al., 2024; Weij et al., 2024) 보다 현실적인 작업 프롬프트를 사용하고 과도한 유도를 피함으로써 개선되었습니다. 결과는 OpenAI (2024)의 o1 Docker 탈출(cyber capabilities testing 중)에서 관찰된 것처럼 추론 모델이 어려운 문제를 해결하기 위해 조작에 의존할 수 있음을 시사합니다.