Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Grounding 3D Object Affordance with Language Instructions, Visual Observations and Interactions

Created by
  • Haebom

저자

He Zhu, Quyu Kong, Kechun Xu, Xunlong Xia, Bing Deng, Jieping Ye, Rong Xiong, Yue Wang

개요

본 논문은 언어 지시, 시각적 관찰 및 상호 작용을 기반으로 3D 객체의 기능을 지정하는 새로운 과제를 제시합니다. 인지 과학에서 영감을 얻은 이 과제를 지원하기 위해, 점, 이미지 및 언어 지시(AGPIL)를 포함하는 기능 지정 데이터셋을 수집했습니다. 데이터셋은 전체보기, 부분보기, 회전보기 관점에서 객체의 기능 추정치를 포함하여 관찰 방향, 객체 회전 또는 공간적 폐색으로 인한 부분적 관찰 문제를 해결합니다. 이 과제를 달성하기 위해, 2D 및 3D 공간 특징과 의미 특징을 융합하는 시각-언어 모델을 적용한 최초의 다중 모드, 언어 유도 3D 기능 지정 네트워크인 LMAffordance3D를 제안합니다. AGPIL에 대한 포괄적인 실험은, 심지어 미지의 실험 설정에서도 제안된 방법의 효과와 우수성을 보여줍니다.

시사점, 한계점

시사점:
언어 지시, 시각 정보, 상호 작용을 활용한 3D 객체 기능 지정이라는 새로운 과제 제시 및 AGPIL 데이터셋 공개.
다중 모드, 언어 유도 3D 기능 지정 네트워크인 LMAffordance3D 제안 및 성능 검증.
부분적 관찰, 객체 회전 등 다양한 관점에서의 기능 지정 가능성 제시.
한계점:
AGPIL 데이터셋의 규모 및 다양성에 대한 명시적인 언급 부족.
LMAffordance3D의 일반화 성능에 대한 추가적인 검증 필요.
다른 3D 기능 지정 방법과의 비교 분석이 더욱 상세하게 필요.
실제 로봇 시스템에 적용했을 때의 성능 및 한계에 대한 분석 부족.
👍