본 논문은 다중 에이전트 논쟁(MAD) 시스템을 테스트 시간 계산 확장 기법으로 개념화하고, 수학적 추론 및 안전 관련 과제에서 자기 에이전트 방법과 비교하여 그 효과를 종합적으로 실증적으로 조사합니다. 특히 과제 난이도, 모델 규모, 에이전트 다양성이 MAD 성능에 미치는 영향을 체계적으로 분석합니다. 수학적 추론 과제에서는 MAD가 문제의 난이도가 높고 모델의 성능이 낮을수록 더 효과적임을 보였으며, 에이전트 다양성은 큰 영향을 미치지 않았습니다. 반면 안전 관련 과제에서는 MAD의 협업적 개선이 취약성을 증가시킬 수 있지만, 다양한 에이전트 구성을 통합하면 협업적 개선 과정을 통해 공격 성공률을 점진적으로 감소시킬 수 있음을 보였습니다.