Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

NVP-HRI: Zero Shot Natural Voice and Posture-based Human-Robot Interaction via Large Language Model

Created by
  • Haebom
Category
Empty

저자

Yuzhi Lai, Shenghai Yuan, Youssef Nassar, Mingyu Fan, Thomas Weber, Matthias Ratsch

개요

본 논문은 고령화 사회의 서비스 로봇을 위한 직관적인 다중 모달 인간-로봇 상호작용(HRI) 패러다임인 NVP-HRI를 제안한다. 기존의 HRI 시스템은 사전에 학습된 객체에만 치우쳐 새로운 객체를 다루는 데 어려움을 겪는다는 한계점을 가지고 있는데, NVP-HRI는 음성 명령과 지시적 자세를 결합하여 이 문제를 해결한다. Segment Anything Model (SAM)을 활용하여 시각적 단서와 깊이 데이터를 분석하고, 사전 학습된 SAM 네트워크를 통해 이전 지식 없이도 새로운 객체와의 제로샷 상호작용을 가능하게 한다. 또한, 대규모 언어 모델(LLM)을 통합하여 다중 모달 명령을 처리하고, 충돌 없는 궤적을 위한 객체 선택 및 장면 분포를 실시간으로 조정한다. LLM의 환각 위험을 줄이기 위해 필수 제어 구문으로 동작 순서를 규제한다. 유니버설 로봇을 사용한 다양한 실제 작업 평가 결과, 기존 제스처 제어보다 최대 59.2%의 효율 향상을 보였다. 코드와 디자인은 공개적으로 제공된다.

시사점, 한계점

시사점:
고령자를 포함한 모든 사용자에게 더 직관적이고 사용하기 쉬운 HRI 시스템을 제공한다.
사전 학습 없이 새로운 객체와의 상호작용을 가능하게 하여 HRI 시스템의 적응력을 향상시킨다.
음성 명령과 제스처를 결합한 다중 모달 접근 방식으로 HRI의 효율성을 높였다.
LLM을 활용하여 복잡한 작업을 수행하고, 환각 위험을 줄이는 방법을 제시한다.
오픈소스로 공개되어 다른 연구자들의 활용 및 발전을 촉진한다.
한계점:
SAM과 LLM의 성능에 의존적이며, 이들의 한계가 NVP-HRI의 성능에도 영향을 미칠 수 있다.
실제 환경에서의 다양한 상황과 예외적인 경우에 대한 로버스트성에 대한 추가적인 검증이 필요하다.
평가에 사용된 작업의 범위가 제한적일 수 있으며, 더욱 광범위한 실험이 필요하다.
LLM의 환각 위험을 완전히 제거하지는 못할 수 있다.
👍