Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

Created by
  • Haebom
Category
Empty

저자

Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong

개요

본 논문은 인공지능 연구의 핵심 분야인 구현된 지능의 발전에 발맞춰, 복잡한 인간 중심 사회적 행동을 포착하기 위해 저수준 물리적 상호작용을 넘어 진화한 시뮬레이션 플랫폼을 제시한다. 의도 및 사회적 인지 이론을 바탕으로 대규모 언어 모델(LLM)을 통합하여 높은 수준의 행동 계획 및 의미적으로 근거한 상호작용을 구현하는 대화형 시뮬레이션 프레임워크인 FreeAskWorld를 소개한다. 이 프레임워크는 확장 가능하고 현실적인 인간-에이전트 시뮬레이션을 지원하며, 다양한 구현된 작업을 위한 모듈식 데이터 생성 파이프라인을 포함한다. 고전적인 Vision-and-Language Navigation (VLN) 작업을 상호작용이 풍부한 Direction Inquiry 설정으로 확장하여 프레임워크를 검증하고, 재구성된 환경, 6가지 다양한 작업 유형, 16개의 핵심 객체 범주, 63,429개의 주석이 달린 샘플 프레임, 17시간 이상의 상호작용 데이터로 구성된 대규모 벤치마크 데이터세트 FreeAskWorld를 공개한다. VLN 모델과 인간 참가자를 대상으로 실험을 진행한 결과, FreeAskWorld에서 미세 조정된 모델이 향상된 의미 이해 및 상호작용 능력을 달성하여 원본 모델을 능가함을 확인했다.

시사점, 한계점

시사점:
사회적으로 근거한 시뮬레이션 프레임워크가 정교한 고수준 계획 및 더욱 자연스러운 인간-에이전트 상호작용을 향해 구현된 AI 시스템을 발전시키는 데 효과적임을 입증.
상호작용 자체가 추가적인 정보 양식으로 작용함을 강조.
FreeAskWorld 벤치마크 데이터세트 공개를 통해 연구자들의 접근성 및 연구 활성화에 기여.
한계점:
논문 내에서 구체적인 한계점에 대한 언급은 없음. (논문 요약에 한계점이 직접적으로 언급되지 않음.)
👍