본 연구는 LLM 에이전트 스케일링에서 멀티 에이전트 토론(MAD)의 역할을 탐구하며, 특히 역할 할당 전략의 중요성을 강조합니다. "Truth Last"라는 새로운 역할 할당 전략을 통해 추론 작업에서 MAD 성능을 최대 22% 향상시켰습니다. 또한, 실용적인 문제에서 진실을 알 수 없는 경우를 대비하여 Multi-Agent Debate Consistency (MADC) 전략을 제안합니다. MADC는 독립적인 역할 간의 일치를 평가하기 위해 경로 일관성을 통합하고, 일관성 점수가 가장 높은 역할을 진실로 시뮬레이션합니다. DeepSeek-R1 Distilled Models을 포함한 다양한 LLM(9개 모델)에서 MADC를 검증하여 MAD 성능 병목 현상을 극복하고 LLM 에이전트 스케일링 개선을 위한 중요한 길을 제시했습니다.