GAM-Agent는 시각-언어 추론을 향상시키기 위한 게임 이론적 다중 에이전트 프레임워크입니다. 기존의 단일 에이전트 또는 단일 모델과 달리, GAM-Agent는 시각적 지각 하위 작업에 특화된 기본 에이전트와 논리적 일관성 및 사실적 정확성을 검증하는 중요 에이전트 간의 비제로섬 게임으로 추론 과정을 공식화합니다. 에이전트는 구조화된 주장, 증거 및 불확실성 추정치를 통해 통신합니다. 이 프레임워크는 불확실성을 인식하는 컨트롤러를 도입하여 에이전트 간의 협업을 동적으로 조정하고, 의견 불일치나 모호함이 감지되면 다중 라운드 토론을 유발합니다. 이 과정은 더욱 강력하고 해석 가능한 예측을 생성합니다. MMMU, MMBench, MVBench 및 V*Bench의 네 가지 까다로운 벤치마크에 대한 실험은 GAM-Agent가 다양한 VLM 백본에서 성능을 크게 향상시킨다는 것을 보여줍니다. 특히, GAM-Agent는 중소 규모 모델(예: Qwen2.5-VL-7B, InternVL3-14B)의 정확도를 56% 향상시키고, GPT-4o와 같은 강력한 모델도 최대 23% 향상시킵니다. 본 접근 방식은 모듈식, 확장 가능 및 일반화 가능하여 신뢰할 수 있고 설명 가능한 다중 에이전트 다중 모드 추론을 위한 경로를 제공합니다.