본 논문은 현실적인 환경에서 주변 환경에 대한 질문에 답할 수 있는 개체 에이전트 배포의 어려움을 해결하기 위해, 현실적인 운영 조건을 충실히 포착하는 벤치마크 부족 문제를 제기합니다. 특히, 다중 스케일 추론, 장거리 공간 이해 및 복잡한 의미 관계를 요구하는 인프라 검사 도메인을 개방형 어휘 개체 인지 질문 응답(EQA)에 대한 유망한 분야로 제안합니다. National Bridge Inventory (NBI) 상태 등급(0-9), 전문 검사 보고서, 그리고 자기 중심적 이미지를 통해 독특한 평가 이점을 제공합니다. BridgeEQA라는 벤치마크를 소개하며, 이는 200개의 실제 다리 장면에서 2,200개의 개방형 어휘 질문-답변 쌍(OpenEQA 스타일)으로 구성되어 있으며, 각 장면당 평균 47.93개의 이미지가 사용됩니다. 질문은 여러 이미지에서 시각적 증거를 종합하고 NBI 상태 등급과 답변을 일치시켜야 합니다. 또한 모델이 관련 이미지를 인용하는 능력을 평가하기 위한 새로운 EQA 메트릭인 Image Citation Relevance를 제안합니다. 상태-최첨단 비전-언어 모델의 평가는 에피소드 메모리 EQA 설정에서 상당한 성능 격차를 보였습니다. 이를 해결하기 위해, 검사를 이미지 기반 장면 그래프를 통한 순차적 탐색으로 공식화하는 Embodied Memory Visual Reasoning (EMVR)을 제안합니다. EMVR은 이미지 노드, 에이전트가 뷰를 탐색하고 증거를 비교하며 마르코프 의사 결정 프로세스 내에서 추론하기 위한 액션을 수행합니다. EMVR은 기본 모델보다 강력한 성능을 보이며, 데이터세트와 코드를 공개합니다.