본 논문은 초지능 AI 시스템의 행동을 인간이 효율적으로 판단하고 제어하는 데 어려움이 있을 수 있다는 문제를 제기하고, 이를 해결하기 위한 방안으로 AI 시스템 간의 '토론(debate)'을 활용하는 것을 제안합니다. 특히, AI 연구개발 에이전트가 허위 결과를 생성하여 연구를 방해하는 등의 위험을 예방하기 위해, 토론을 통한 훈련으로 AI 시스템의 정직성을 확보하는 방법에 초점을 맞춥니다. 논문에서는 AI 시스템의 안전성을 주장하는 '정렬 안전성 사례(alignment safety case)'를 개략적으로 제시하며, 이를 위해 AI 에이전트의 토론 능력 향상, 토론 능력과 정직성의 상관관계, 배포 후 정직성 유지, 배포 환경의 오류 허용성 등 네 가지 주장을 제시합니다. 마지막으로, 이러한 주장을 뒷받침하기 위해 해결해야 할 연구 과제들을 제시합니다.