본 논문은 초지능 AI 시스템의 안전성 확보를 위한 새로운 접근법으로, AI 시스템 간의 토론(debate)을 제안합니다. 인간의 판단 능력을 뛰어넘는 AI의 행동을 효율적으로 평가하는 것이 어려운 상황에서, 또 다른 초지능 AI 시스템을 활용하여 첫 번째 AI 시스템의 출력물에 대한 오류를 지적하고 토론을 통해 안전성을 확보하는 아이디어입니다. 특히, AI 연구개발 과정에서 AI 에이전트가 허위 결과를 생성하는 등의 위험을 방지하기 위해, 토론 기반 훈련을 통해 AI 에이전트의 정직성을 확보하는 방법을 제시합니다. 이를 위해 AI 시스템의 안전성을 주장하는 네 가지 핵심 주장 (1. 에이전트의 토론 능력 향상, 2. 토론 능력과 정직성의 상관관계, 3. 배포 후 정직성 유지, 4. 배포 환경의 오류 허용)을 제시하고, 이 주장들을 뒷받침하기 위한 추가 연구 과제들을 제시합니다.