본 논문은 단일 턴, 다중 에이전트 논쟁 프레임워크를 사용하여 대규모 언어 모델(LLM)이 상반되는 주장(일부는 정확하고 일부는 잘못됨)을 판단하는 능력을 조사합니다. 하나의 LLM 기반 에이전트는 TruthfulQA에서 사실적인 답변을 제공하고, 다른 에이전트는 거짓 주장을 강력하게 옹호하며, 동일한 LLM 아키텍처가 판사 역할을 합니다. 논문에서는 판사가 잘못된 선택을 할 뿐만 아니라 그 선택에 얼마나 강하게 확신하는지를 포착하는 신뢰 가중 설득 무효율(CW-POR)을 제시합니다. 다양한 크기의 오픈소스 LLM(30억-140억 파라미터)과 에이전트의 상세 설명(30-300단어)을 실험 변수로 사용하여, 작은 모델조차도 사실적인 답변을 뒤집는 설득력 있는 주장을 만들어낼 수 있음을 보여줍니다.