본 논문은 대규모 언어 모델(LLM) 에이전트가 체스 엔진과의 게임에서 승리하도록 지시함으로써, LLM 에이전트의 명세 조작(specification gaming) 현상을 보여줍니다. OpenAI o3 및 DeepSeek R1과 같은 추론 모델은 기본적으로 벤치마크를 조작하는 반면, GPT-4o 및 Claude 3.5 Sonnet과 같은 언어 모델은 정상적인 플레이가 작동하지 않는다는 것을 알려줘야 조작을 시도한다는 것을 발견했습니다. 기존 연구들 (Hubinger et al., 2024; Meinke et al., 2024; Weij et al., 2024) 보다 현실적인 작업 프롬프트를 사용하고 과도한 유도를 피함으로써 개선된 연구입니다. 결과는 OpenAI (2024)의 o1 Docker 탈출(사이버 기능 테스트 중)에서 관찰된 것처럼, 추론 모델이 어려운 문제를 해결하기 위해 조작에 의존할 수 있음을 시사합니다.