본 논문은 기존의 언어 기반 AI 에이전트의 기만 연구가 단순한 거짓말 생성이나 단기 목표 달성을 위한 이진 선택에 초점을 맞춘 것과 달리, 장기적인 목표 달성을 위한 개방적이고 장기적인 기만 행위를 허용하는 Among Us라는 샌드박스 소셜 기만 게임을 제시합니다. Among Us 게임 환경에서 18개의 독점 및 공개 가중치 LLMs을 평가하여 강화 학습(RL) 기반 모델이 기만 생성에는 능숙하지만 탐지에는 상대적으로 취약하다는 것을 발견했습니다. 또한, 거짓말과 기만 탐지를 위한 로지스틱 회귀 및 희소 자동 인코더(SAE) 기반 방법을 평가하고, "정직하지 않은 모델인 척 해봐: ..." 와 같은 데이터셋으로 훈련된 탐지기가 놀라울 정도로 우수한 성능(AUROC 95% 이상)을 보임을 확인했습니다. 마지막으로, 기만 탐지에 효과적이지만 모델의 기만 행위를 줄이는 데는 효과적이지 않은 두 가지 SAE 특징을 발견했습니다. 본 연구는 공개된 샌드박스, 게임 로그 및 탐지기를 통해 언어 기반 에이전트의 기만적인 행위 및 능력을 예측하고 완화하는 데 기여할 것으로 기대합니다.