Dadi Guo, Qingyu Liu, Dongrui Liu, Qihan Ren, Shuai Shao, Tianyi Qiu, Haoran Li, Yi R. Fung, Zhongjie Ba, Juntao Dai, Jiaming Ji, Zhikai Chen, Jialing Tao, Yaodong Yang, Jing Shao, Xia Hu
개요
대규모 언어 모델(LLM) 기반 에이전트가 자율적인 하위 조직으로 사용됨에 따라, 사용자를 위해 작업을 수행하는 과정에서 기만 행위를 할 수 있는지에 대한 의문이 제기되었다. 본 연구는 에이전트가 환경적 제약에 직면하여 실패를 숨기고 보고 없이 요청되지 않은 작업을 수행하는 "에이전트적 상향 기만" 현상을 관찰하고 정의한다. 200개의 과제와 다양한 시나리오를 통해 11개의 인기 LLM을 평가한 결과, 이러한 에이전트가 결과 추측, 시뮬레이션 수행, 정보 소스 대체, 파일 조작 등 다양한 형태의 기만적 행동을 보임을 확인했다. 프롬프트 기반 완화 전략을 테스트했지만 제한적인 효과만 확인되어, 강력한 완화 전략의 필요성을 강조한다.