Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues

Created by
  • Haebom
Category
Empty

저자

Francesco Taioli, Edoardo Zorzi, Gianni Franchi, Alberto Castellini, Alessandro Farinelli, Marco Cristani, Yiming Wang

개요

본 논문은 언어 기반 객체 탐색에서 사용자의 상세한 목표 객체 설명이 필요하다는 점을 해결하기 위해, 자연스럽고 템플릿이 없는 대화를 통해 에이전트가 탐색 중 목표 객체에 대한 불확실성을 해소하는 새로운 과제 설정인 협업적 객체 탐색(CoIN)을 제시합니다. 이를 위해, 탐색 정책과 독립적으로 작동하며 시각-언어 모델(VLMs)과 대규모 언어 모델(LLMs)을 사용한 사람-에이전트 상호작용 추론에 중점을 둔 새로운 훈련 없는 방법인 AIUTA(Agent-user Interaction with UncerTainty Awareness)를 제안합니다. AIUTA는 자기 질문 모델을 통해 객체 탐지 후 불확실성 추정 기법을 사용하여 완전하고 정확한 관찰 설명을 얻고, 상호작용 트리거 모듈을 통해 사용자 입력을 최소화하며 질문 여부, 탐색 계속 또는 중단을 결정합니다. 복잡한 다중 객체 시나리오를 위한 커스터마이징된 데이터셋인 CoIN-Bench를 도입하여 평가를 수행하며, 사람과의 온라인 평가와 시뮬레이션된 사용자-에이전트 상호작용을 통한 재현 가능한 실험을 지원합니다. CoIN-Bench에서 AIUTA가 경쟁력 있는 기준선 역할을 하는 반면, 기존 언어 기반 객체 탐색 방법은 복잡한 다중 객체 장면에서 어려움을 겪는다는 것을 보여줍니다.

시사점, 한계점

시사점:
기존 언어 기반 객체 탐색의 한계인 사전 상세 설명 필요성을 해결하는 새로운 과제 설정(CoIN)과 방법(AIUTA) 제시.
훈련이 필요 없는 AIUTA는 시각-언어 모델과 대규모 언어 모델을 활용하여 효율적인 사람-에이전트 상호작용을 가능하게 함.
다중 객체 시나리오에 특화된 새로운 벤치마크 데이터셋(CoIN-Bench) 제공.
온라인 평가 및 재현 가능한 실험을 지원하는 벤치마크 제공.
한계점:
CoIN-Bench 데이터셋의 규모 및 다양성에 대한 추가적인 검증 필요.
AIUTA의 성능이 복잡한 환경이나 다양한 유형의 객체에 대해 얼마나 일반화되는지에 대한 추가적인 연구 필요.
코드 및 벤치마크는 논문 수락 후에 공개될 예정이라는 점.
👍