본 논문은 다양한 데이터와 작업에 대해 훈련된 대규모 언어 모델(LLM)의 강점을 활용하기 위해 멀티 에이전트 토론(MAD)을 연구하며, 특히 시각 및 언어 추론 문제 해결에 초점을 맞춥니다. 논문에서는 단일 및 다중 모달 기능을 가진 이기종 전문가를 활용하는 일반화된 토론 프로토콜을 제시합니다. 이를 위해, 해결책을 생성하는 Solver와 정확성을 검증하고, 가중치를 할당하며, 자연어 피드백을 제공하는 Reflector로 에이전트를 분할하는 일반화되고 모듈화된 MAD 프레임워크인 Weighted Iterative Society-of-Experts (WISE)를 제안합니다. 또한, 에이전트의 응답 및 피드백 가중치 변화를 고려하여 토론 라운드 간 에이전트 솔루션을 통합하기 위해 수정된 Dawid-Skene 알고리즘을 제시합니다. SMART-840, VisualPuzzles, EvoChart-QA 및 새로 생성된 SMART-840++ 데이터 세트에서 WISE를 평가한 결과, 다양한 멀티 모달 작업 및 LLM 구성에서 기존 MAD 설정 및 통합 방법보다 2-7%의 정확도 향상을 보였습니다.