본 논문은 문서 이해 및 추론 분야에서 기존의 대규모 시각-언어 모델(VLM)의 한계를 극복하기 위해, 멀티 에이전트 협업 프레임워크 MACT(Multi-Agent Collaboration framework with agent-wise adaptive Test-time scaling)를 제안합니다. MACT는 시각적 문서 처리 과정을 계획, 실행, 판단, 응답의 네 가지 전문 에이전트로 분해하여 인지 과부하를 해결하고 사실 기반 검증을 위한 자체 수정 루프를 도입합니다. 또한, 각 기능의 복잡성과 중복성에 따라 계산 자원을 지능적으로 할당하는 에이전트별 적응형 테스트 시점 스케일링 전략을 사용합니다. MACT는 여러 문서 이해 벤치마크에서 더 작은 매개변수 규모로도 우수한 성능을 달성하며, 일반적 및 수학적 추론 능력도 유지합니다.
시사점, 한계점
•
시사점:
◦
문서 기반 절차적 추론, 인지 복잡성, 사실 정확성 확보에 효과적인 새로운 패러다임 제시: 절차적 스케일링.