본 논문은 언어 기반 개체 객체 탐색에서 사용자가 목표 개체에 대한 자세한 설명을 미리 제공해야 하는 기존 방식의 한계를 극복하기 위해, 에이전트와 사용자 간의 자연스러운 대화를 통해 목표 개체에 대한 불확실성을 해소하는 새로운 과제 설정인 협업적 개체 객체 탐색(CoIN)을 제시합니다. 이를 위해, 탐색 정책과 독립적으로 작동하며, Vision-Language Model(VLM)과 Large Language Model(LLM)을 이용하여 사람-에이전트 상호작용 추론에 집중하는 새로운 훈련이 필요 없는 방법인 AIUTA(Agent-user Interaction with UncerTainty Awareness)를 제안합니다. AIUTA는 자체 질문 모델을 통해 객체 탐지 후 불확실성 추정 기법을 사용하여 완전하고 정확한 관측 설명을 얻고, 상호작용 트리거 모듈을 통해 사용자 입력을 최소화하면서 질문할지, 탐색을 계속할지, 중지할지 결정합니다. 복잡한 다중 개체 시나리오를 위한 커스터마이징된 데이터셋인 CoIN-Bench를 도입하여 평가를 수행하며, CoIN-Bench는 사람과의 온라인 평가와 시뮬레이션된 사용자-에이전트 상호작용을 통한 재현 가능한 실험을 모두 지원합니다. 실험 결과, AIUTA는 다중 개체 시나리오에서 기존 방법보다 경쟁력 있는 기준선을 제시함을 보여줍니다.