본 논문은 대규모 시각-언어 모델(VLM)을 활용한 구체적 질의응답(EQA) 에이전트의 탐색 문제를 해결하기 위해 Prune-Then-Plan 프레임워크를 제안합니다. VLM의 과신과 오차 보정으로 인한 불안정한 탐색 문제를 해결하기 위해, 1) Holm-Bonferroni 기반의 가지치기를 통해 비현실적인 선택지를 제거하고, 2) 커버리지 기반 플래너를 통해 최종 결정을 내립니다. 이 방법을 통해 VLM의 단계별 동작을 인간 수준의 판단으로 보정하여 안정적인 탐색을 가능하게 하며, 3D-Mem EQA 프레임워크에 통합하여 기존 방식 대비 향상된 성능을 보입니다.