대규모 언어 모델(LLM) 에이전트 시스템은 제로샷 환경에서의 강력한 일반화 능력으로 빠르게 발전했습니다. 복잡한 작업에 대한 추론 및 정확성을 더욱 향상시키기 위해, 여러 LLM 에이전트가 구조화된 토론에 참여하여 다양한 추론을 장려하는 Multi-Agent Debate (MAD)가 유망한 프레임워크로 부상했습니다. 그러나 모든 쿼리에 대해 MAD를 트리거하는 것은 비효율적입니다. 상당한 계산(토큰) 비용이 발생하고, 올바른 단일 에이전트 답변을 뒤집어 정확도를 저하시킬 수도 있기 때문입니다. 이러한 한계를 해결하기 위해, iMAD (intelligent Multi-Agent Debate)를 제안합니다. iMAD는 이점이 있을 가능성이 있는 경우(즉, 처음 틀린 답변을 수정하는 경우)에만 MAD를 선택적으로 트리거하는 토큰 효율적인 프레임워크입니다. 이를 위해 iMAD는 정확한 토론 결정을 내리기 위해 일반화 가능한 모델 동작을 학습합니다. 구체적으로, iMAD는 먼저 단일 에이전트에게 구조화된 자기 비판 응답을 생성하도록 프롬프트하며, 여기서 주저 신호를 포착하는 41개의 해석 가능한 언어적 및 의미적 특징을 추출합니다. 그런 다음, iMAD는 제안된 FocusCal 손실을 사용하여 훈련된 경량 토론 결정 분류기를 사용하여 MAD를 트리거할지 여부를 결정하여 테스트 데이터 세트별 조정 없이 강력한 토론 결정을 가능하게 합니다. 6개의 (시각적) 질의응답 데이터 세트를 사용하여 5개의 경쟁적 기준선에 대해 광범위한 실험을 수행하여, iMAD가 최종 답변 정확도를 최대 13.5%까지 향상시키면서 토큰 사용량을 최대 92%까지 줄일 수 있음을 보여주었습니다.