본 논문은 언어 기반 객체 탐색에서 사용자의 상세한 목표 객체 설명이 필요하다는 점을 해결하기 위해, 자연스럽고 템플릿이 없는 대화를 통해 에이전트가 탐색 중 목표 객체에 대한 불확실성을 해소하는 새로운 과제 설정인 협업적 객체 탐색(CoIN)을 제시합니다. 이를 위해, 탐색 정책과 독립적으로 작동하며 시각-언어 모델(VLMs)과 대규모 언어 모델(LLMs)을 사용한 사람-에이전트 상호작용 추론에 중점을 둔 새로운 훈련 없는 방법인 AIUTA(Agent-user Interaction with UncerTainty Awareness)를 제안합니다. AIUTA는 자기 질문 모델을 통해 객체 탐지 후 불확실성 추정 기법을 사용하여 완전하고 정확한 관찰 설명을 얻고, 상호작용 트리거 모듈을 통해 사용자 입력을 최소화하며 질문 여부, 탐색 계속 또는 중단을 결정합니다. 복잡한 다중 객체 시나리오를 위한 커스터마이징된 데이터셋인 CoIN-Bench를 도입하여 평가를 수행하며, 사람과의 온라인 평가와 시뮬레이션된 사용자-에이전트 상호작용을 통한 재현 가능한 실험을 지원합니다. CoIN-Bench에서 AIUTA가 경쟁력 있는 기준선 역할을 하는 반면, 기존 언어 기반 객체 탐색 방법은 복잡한 다중 객체 장면에서 어려움을 겪는다는 것을 보여줍니다.