Sign In

SeqAfford: Sequential 3D Affordance Reasoning via Multimodal Large Language Model

Created by
  • Haebom
Category
Empty

저자

Chunlin Yu, Hanqing Wang, Ye Shi, Haoyang Luo, Sibei Yang, Jingyi Yu, Jingya Wang

개요

본 논문은 기존의 단일 객체, 단일 기능 접근 방식의 한계를 극복하고, 복잡한 사용자 의도를 포함하는 장기간 작업을 처리하기 위해 순차적 3D 기능 추론(Sequential 3D Affordance Reasoning) 과제를 제시합니다. 기존 방식은 각 기능 유형 또는 명시적 지시가 특정 기능 영역에 엄격하게 대응하는 단일 객체, 단일 기능 패러다임을 따르지만, 장기간 작업을 처리할 수 없습니다. 본 논문에서는 단일 및 순차적 기능에 대한 추론을 포함하는 180,000개의 지시-점 구름 쌍으로 구성된 최초의 지시 기반 기능 분할 벤치마크를 구축하고, 이를 기반으로 세계 지식과 세분화된 기능 접지를 통합적인 프레임워크에서 추론할 수 있도록 하는 SeqAfford 모델을 제안합니다. SeqAfford는 3D 다중 모드 대규모 언어 모델에 추가적인 기능 분할 기능을 부여하며, 다중 입자 언어-점 통합 모듈을 도입하여 3D 밀집 예측을 가능하게 합니다. 실험 결과, 제안된 모델이 기존 방법보다 우수하며 순차적 추론 능력을 갖춘 개방형 세계 일반화를 보여줍니다.

시사점, 한계점

시사점:
순차적 3D 기능 추론 과제를 위한 새로운 벤치마크 제시
장기간 작업 및 복잡한 사용자 의도를 처리할 수 있는 SeqAfford 모델 제안
3D 다중 모달 대규모 언어 모델과 기능 분할의 통합
다중 입자 언어-점 통합 모듈을 통한 3D 밀집 예측 향상
개방형 세계 일반화 및 순차적 추론 능력 입증
한계점:
벤치마크 데이터셋의 규모 및 다양성에 대한 추가적인 연구 필요
모델의 성능 평가에 사용된 지표의 한계 및 개선 방안 모색
실제 로봇 조작 환경에서의 모델 성능 검증 필요
모델의 계산 복잡도 및 효율성 개선 필요
👍