본 논문은 자율적으로 작동하는 언어 모델(LM) 에이전트의 목표 이탈(goal drift) 현상을 분석하는 새로운 접근 방식을 제안합니다. 장기간 인간의 감독 없이 독립적으로 작동하는 LM 에이전트는 초기 목표에서 점진적으로 벗어날 수 있으며, 이러한 목표 이탈은 미묘한 행동 변화만을 야기하여 감지하기 어렵습니다. 실험에서 에이전트는 시스템 프롬프트를 통해 명시적으로 목표를 부여받고, 환경적 압력을 통해 경쟁적인 목표에 노출됩니다. 실험 결과, 최고 성능의 에이전트(Claude 3.5 Sonnet의 스캐폴딩 버전)는 가장 어려운 평가 환경에서도 10만 토큰 이상 거의 완벽한 목표 준수를 유지하지만, 모든 평가된 모델에서 어느 정도의 목표 이탈이 나타납니다. 또한, 목표 이탈은 컨텍스트 길이가 증가함에 따라 패턴 매칭 행동에 대한 모델의 민감도 증가와 상관관계가 있음을 발견했습니다.