기존의 시각-언어 모델(VLMs)은 매개변수 규모의 제약, 강력한 자기 수정 기능 부족, 긴 시각적 맥락과 복잡한 추론을 포함하는 작업에서의 성능 저하로 인해 문서 기반 작업에서 최적의 성능을 내지 못합니다. 본 논문에서는 이러한 문제를 해결하기 위해 시각적 문서 이해와 시각적 질의응답(VQA)에 맞춰 설계된, 테스트 시간 확장을 포함한 다중 에이전트 협업 프레임워크인 MACT를 제안합니다. MACT는 계획, 실행, 판단, 답변 에이전트라는 네 가지의 소규모 에이전트로 구성되며, 각 에이전트는 명확하게 정의된 역할을 수행하고 효과적으로 협업합니다. 특히, 판단 에이전트는 정확성을 독점적으로 검증하고 수정을 위해 이전 에이전트로 리다이렉트하여 기존의 수정 전략보다 뛰어난 성능을 보입니다. 프레임워크의 기능적 한계를 더욱 확장하기 위해 에이전트별 능력과 전반적인 협업의 균형을 맞추는 혼합 보상 모델링과 각 에이전트의 기능에 따라 다른 확장 전략을 사용자 지정하는 에이전트별 하이브리드 테스트 시간 확장을 제안합니다. 문서 기반 및 비문서 기반 설정을 아우르는 벤치마크에서 평가한 결과, MACT는 일반 및 수학적 작업의 능력을 희생하지 않고도 더 작은 매개변수 규모로 우수한 성능을 보였습니다. 특히, 긴 시각적 맥락과 복잡한 추론을 포함하는 벤치마크에서 두각을 나타냈으며, 세 가지 변형 모두 평균 점수에서 상위 3위를 차지했고 15개 벤치마크 중 13개에서 1위를 차지했습니다.