Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Visual Document Understanding and Reasoning: A Multi-Agent Collaboration Framework with Agent-Wise Adaptive Test-Time Scaling

Created by
  • Haebom
Category
Empty

저자

Xinlei Yu, Chengming Xu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Cheng Yang, Jiangning Zhang, Shuicheng Yan, Xiaobin Hu

개요

본 논문은 문서 이해 및 추론 분야에서 기존의 대규모 시각-언어 모델(VLM)의 한계를 극복하기 위해, 멀티 에이전트 협업 프레임워크 MACT(Multi-Agent Collaboration framework with agent-wise adaptive Test-time scaling)를 제안합니다. MACT는 시각적 문서 처리 과정을 계획, 실행, 판단, 응답의 네 가지 전문 에이전트로 분해하여 인지 과부하를 해결하고 사실 기반 검증을 위한 자체 수정 루프를 도입합니다. 또한, 각 기능의 복잡성과 중복성에 따라 계산 자원을 지능적으로 할당하는 에이전트별 적응형 테스트 시점 스케일링 전략을 사용합니다. MACT는 여러 문서 이해 벤치마크에서 더 작은 매개변수 규모로도 우수한 성능을 달성하며, 일반적 및 수학적 추론 능력도 유지합니다.

시사점, 한계점

시사점:
문서 기반 절차적 추론, 인지 복잡성, 사실 정확성 확보에 효과적인 새로운 패러다임 제시: 절차적 스케일링.
MACT 프레임워크를 통해 VLM의 성능 향상 및 매개변수 규모 감소.
다양한 문서 시나리오에 효과적으로 적응하며 일반 및 수학적 추론 능력 유지.
소스 코드 공개 예정.
한계점:
구체적인 성능 향상 수치(9.9-11.5%) 외, 다른 모델과의 상세 비교 정보 부족.
모델의 일반화 능력에 대한 추가적인 검증 필요.
제안된 에이전트의 구체적인 작동 방식 및 상호 작용에 대한 추가적인 설명 요구.
👍