Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues

Created by
  • Haebom
Category
Empty

저자

Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang

개요

본 논문은 언어 기반 개체 객체 탐색에서 사용자가 목표 개체에 대한 자세한 설명을 미리 제공해야 하는 기존 방식의 한계를 극복하기 위해, 에이전트와 사용자 간의 자연스러운 대화를 통해 목표 개체에 대한 불확실성을 해소하는 새로운 과제 설정인 협업적 개체 객체 탐색(CoIN)을 제시합니다. 이를 위해, 탐색 정책과 독립적으로 작동하며, Vision-Language Model(VLM)과 Large Language Model(LLM)을 이용하여 사람-에이전트 상호작용 추론에 집중하는 새로운 훈련이 필요 없는 방법인 AIUTA(Agent-user Interaction with UncerTainty Awareness)를 제안합니다. AIUTA는 자체 질문 모델을 통해 객체 탐지 후 불확실성 추정 기법을 사용하여 완전하고 정확한 관측 설명을 얻고, 상호작용 트리거 모듈을 통해 사용자 입력을 최소화하면서 질문할지, 탐색을 계속할지, 중지할지 결정합니다. 복잡한 다중 개체 시나리오를 위한 커스터마이징된 데이터셋인 CoIN-Bench를 도입하여 평가를 수행하며, CoIN-Bench는 사람과의 온라인 평가와 시뮬레이션된 사용자-에이전트 상호작용을 통한 재현 가능한 실험을 모두 지원합니다. 실험 결과, AIUTA는 다중 개체 시나리오에서 기존 방법보다 경쟁력 있는 기준선을 제시함을 보여줍니다.

시사점, 한계점

시사점:
기존 언어 기반 개체 객체 탐색의 한계점인 사전 정보 제공의 어려움을 해결하는 새로운 협업적 접근 방식(CoIN) 제시.
훈련이 필요 없는 AIUTA 방법을 통해 효율적인 사람-에이전트 상호작용 및 불확실성 해소 가능.
다중 개체 시나리오에 적합한 새로운 벤치마크 데이터셋 CoIN-Bench 제시.
온라인 평가 및 재현 가능한 실험 지원으로 객관적인 성능 비교 가능.
한계점:
AIUTA의 성능은 사용되는 VLM과 LLM의 성능에 의존적일 수 있음.
CoIN-Bench 데이터셋의 규모 및 다양성이 향후 확장될 필요가 있음.
실제 환경에서의 일반화 성능에 대한 추가적인 연구 필요.
시뮬레이션된 사용자-에이전트 상호작용은 실제 사용자 상호작용과 차이가 있을 수 있음.
👍