본 논문은 다양한 영역과 모달리티에서 전문성을 갖춘 거대 언어 모델(LLM)의 감독이 점점 어려워지는 문제를 해결하기 위해 논쟁(debate) 패러다임을 제시합니다. 특히, LLM의 능력이 인간 평가자를 능가할 수 있는 경우에 더욱 그렇습니다. 본 연구는 이 논쟁 패러다임을 다중 모달리티 설정으로 확장하여, 상대적으로 약한 모델이 강력한 모델의 성능을 감독하고 향상시키는 잠재력을 탐구합니다. 시각적 질문 응답(VQA)에 초점을 맞춰, 두 개의 "시각적" 전문가 비전-언어 모델이 답변에 대해 논쟁하고, "맹인" (텍스트 전용) 판사가 주장의 질에 따라 판정을 내리는 구조를 제시합니다. 전문가들은 자신의 신념과 일치하는 답변만 옹호하므로, 명시적인 역할극이 필요 없고 논쟁은 전문가 간의 의견 불일치 사례에 집중됩니다. 여러 다중 모달리티 작업에 대한 실험 결과, 논쟁 프레임워크가 개별 전문가 모델보다 일관되게 우수한 성능을 보이며, 약한 LLM의 판단이 미세 조정을 통해 비전-언어 모델에 추론 능력을 심어주는 데 도움이 됨을 보여줍니다.