Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning

Created by
  • Haebom

저자

Jusheng Zhang, Yijia Fan, Wenjun Lin, Ruiqi Chen, Haoyi Jiang, Wenhao Chai, Jian Wang, Keze Wang

개요

GAM-Agent는 시각-언어 추론을 향상시키기 위한 게임 이론적 다중 에이전트 프레임워크입니다. 기존의 단일 에이전트 또는 단일 모델과 달리, GAM-Agent는 시각적 지각 하위 작업에 특화된 기본 에이전트와 논리적 일관성 및 사실적 정확성을 검증하는 중요 에이전트 간의 비제로섬 게임으로 추론 과정을 공식화합니다. 에이전트는 구조화된 주장, 증거 및 불확실성 추정치를 통해 통신합니다. 이 프레임워크는 불확실성을 인식하는 컨트롤러를 도입하여 에이전트 간의 협업을 동적으로 조정하고, 의견 불일치나 모호함이 감지되면 다중 라운드 토론을 유발합니다. 이 과정은 더욱 강력하고 해석 가능한 예측을 생성합니다. MMMU, MMBench, MVBench 및 V*Bench의 네 가지 까다로운 벤치마크에 대한 실험은 GAM-Agent가 다양한 VLM 백본에서 성능을 크게 향상시킨다는 것을 보여줍니다. 특히, GAM-Agent는 중소 규모 모델(예: Qwen2.5-VL-7B, InternVL3-14B)의 정확도를 56% 향상시키고, GPT-4o와 같은 강력한 모델도 최대 23% 향상시킵니다. 본 접근 방식은 모듈식, 확장 가능 및 일반화 가능하여 신뢰할 수 있고 설명 가능한 다중 에이전트 다중 모드 추론을 위한 경로를 제공합니다.

시사점, 한계점

시사점:
시각-언어 추론 성능 향상: 다양한 벤치마크에서 기존 모델 대비 성능 향상을 보임. 특히 중소규모 모델의 성능 향상이 두드러짐.
강력하고 해석 가능한 예측: 다중 에이전트 간의 상호작용을 통해 더욱 강력하고 해석 가능한 결과 도출.
모듈식, 확장 가능 및 일반화 가능한 프레임워크: 다양한 모델과 작업에 적용 가능한 유연성을 제공.
한계점:
본 논문에서는 구체적인 한계점이 언급되지 않음. 추가적인 실험이나 분석을 통해 한계점을 밝힐 필요가 있음.
특정 모델에 대한 의존성 여부 및 다양한 데이터셋에 대한 일반화 성능에 대한 추가 검증 필요.
계산 비용 및 복잡성에 대한 평가 필요.
👍