본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 안전성 문제를 다룬다. 반복적인 죄수의 딜레마를 변형한 게임 이론 환경에서 에이전트의 행동을 분석하고, 희소 자동 인코더 잠재 공간에서 추출한 해석 가능한 특징을 이용하여 잔차 스트림을 조절하는 전략 수정 방법을 제시한다. '선의의 협상' 특징을 이용한 조절은 평균 배신 확률을 28% 감소시키는 효과를 보였다. 또한 여러 오픈소스 LLM 에이전트에 대한 실행 가능한 조절 범위를 확인하고, 게임 이론적 평가와 표현 조절 정렬을 결합하여 실제 응용 프로그램에 일반화할 수 있다는 가설을 제시한다.