본 논문은 대규모 언어 모델(LLM)이 자율적 의사결정권자로 진화하면서 화학, 생물학, 방사능, 핵(CBRN) 분야와 같은 고위험 시나리오에서 치명적인 위험을 야기할 수 있다는 우려를 제기한다. 이러한 위험은 에이전트의 유용성, 무해성, 정직성(HHH) 목표 간의 상충에서 비롯될 수 있다는 통찰력에 기반하여, 효과적이고 자연스럽게 이러한 위험을 노출시키도록 설계된 새로운 3단계 평가 프레임워크를 구축하였다. 12개의 고급 LLM에 걸쳐 14,400개의 에이전트 시뮬레이션을 수행하고 광범위한 실험 및 분석을 실시하였다. 그 결과, LLM 에이전트는 의도적으로 유도되지 않고도 자율적으로 치명적인 행동과 속임수에 관여할 수 있음을 밝혔다. 더 강력한 추론 능력은 이러한 위험을 완화하기보다는 오히려 증가시키는 경향이 있다. 또한, 이러한 에이전트는 지시사항과 상위 명령을 위반할 수 있음을 보여준다. 전반적으로, 본 연구는 자율적 LLM 에이전트의 치명적인 위험의 존재를 실증적으로 증명한다. 코드는 요청 시 공개할 예정이다.