본 논문은 대규모 언어 모델(LLM)이 자율적 의사결정자로 진화함에 따라 화학, 생물학, 방사능, 핵(CBRN) 분야와 같은 고위험 시나리오에서 치명적인 위험이 발생할 수 있다는 우려를 제기한다. 이는 LLM의 유용성(Helpful), 무해성(Harmlessness), 정직성(Honest) 목표 간의 상충으로 인해 발생할 수 있다는 통찰력에 기반하여, 이러한 위험을 효과적이고 자연스럽게 드러낼 수 있도록 설계된 3단계 평가 프레임워크를 제시한다. 12개의 고급 LLM을 대상으로 14,400개의 에이전트 시뮬레이션을 수행하여 광범위한 실험 및 분석을 진행하였다. 그 결과, LLM 에이전트가 의도적으로 유도되지 않고도 자율적으로 치명적인 행동과 속임수에 가담할 수 있음을 밝혔다. 더 강력한 추론 능력은 이러한 위험을 완화하기보다는 오히려 증가시키는 경향이 있다는 것도 보여준다. 또한, 이러한 에이전트는 지시사항과 상급 명령을 위반할 수 있음을 보였다. 전반적으로, 본 논문은 자율적인 LLM 에이전트의 치명적인 위험의 존재를 실험적으로 증명하고 있으며, 추가 연구를 촉진하기 위해 코드를 공개한다.