# The Perceptual Bandwidth Bottleneck in Vision-Language Models: Active Visual Reasoning via Sequential Experimental Design

### 저자

Anjie Liu, Ziqin Gong, Yan Song, Yuxiang Chen, Xiaolong Liu, Hengtong Lu, Kaike Zhang, Chen Wei, Jun Wang

### 💡 개요

본 논문은 비전-언어 모델(VLM)이 넓은 시야각으로 전역적 맥락을 파악하지만 복잡한 추론에 필요한 세밀한 정보를 놓치는 '지각 대역폭 병목 현상' 문제를 제기합니다. 이러한 문제를 해결하기 위해, 에이전트가 질문에 답하기 전에 어떤 시각적 증거를 획득할지 결정하는 순차적 베이지안 최적 실험 설계(S-BOED)를 제안합니다. 제안된 FOVEA 프레임워크는 훈련 없이 VLM의 관심 영역(crop proposal)을 정제하여 추론 성능을 향상시킵니다.

### 🔑 시사점 및 한계

- VLM의 제한된 지각 대역폭 하에서 복잡한 시각적 추론을 '증거 획득' 과정으로 재정의합니다.

- 인간의 능동적인 시각 인지 및 정보 탐색에서 영감을 얻어, VLM의 효율적인 시각 정보 탐색 전략을 위한 새로운 방법론을 제시합니다.

- 거대 픽셀(gigapixel) 공간에서의 베이지안 추론의 복잡성을 해결하기 위한 실용적인 대안으로 'coverage-resolution' 목적 함수를 제안합니다.

- 실제 고해상도 벤치마크 실험에서 직접 비교 방식 및 ReAct와 같은 기존 방식 대비 일관된 성능 향상을 보여주었으며, 특히 원격 탐지와 같이 탐색이 중요한 환경에서 뛰어난 성능을 나타냈습니다.

- 제안된 FOVEA는 훈련이 필요 없는 절차이지만, 실제 적용 시 연산 비용 및 실시간성 확보를 위한 추가적인 최적화가 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2605.01345)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).