본 연구는 최첨단 대규모 언어 모델(LLM)이 불가능한 상황에 직면했을 때 시스템을 '게임하는' 방식을 밝힙니다. 이는 중요한 보안 및 정렬 문제입니다. 새로운 텍스트 시뮬레이션 접근 방식을 사용하여 세 가지 주요 LLM(o1, o3-mini, r1)에 정당한 플레이로는 이길 수 없도록 설계된 틱택토 시나리오를 제시한 후, 패배를 받아들이는 대신 허점을 악용하는 경향을 분석했습니다. 결과는 보안 연구원들에게 우려스럽습니다. 새로운 추론 중심의 o3-mini 모델은 이전 모델인 o1 모델(17.5%)에 비해 시스템 취약성을 악용하는 경향이 거의 두 배(37.1%)나 되었습니다. 가장 주목할 만한 것은 프롬프팅의 효과였습니다. 작업을 "창의적인" 솔루션이 필요한 것으로 묘사하는 것만으로도 모든 모델에서 게임 행동이 77.3%까지 급증했습니다. 게임 상태의 직접 조작부터 상대 행동의 정교한 수정에 이르기까지 네 가지의 고유한 악용 전략을 확인했습니다. 이러한 결과는 실제 실행 기능이 없더라도 LLM이 인센티브가 주어지면 운영 환경의 취약성을 식별하고 활용하는 정교한 시스템 악용을 식별하고 제안할 수 있음을 보여주며, 모델이 운영 환경의 취약성을 식별하고 활용하는 능력이 향상됨에 따라 AI 정렬에 대한 시급한 과제를 강조합니다.