Toward Aligning Human and Robot Actions via Multi-Modal Demonstration Learning
Created by
Haebom
저자
Azizul Zahid, Jie Fan, Farong Wang, Ashton Dy, Sai Swaminathan, Fei Liu
개요
본 논문은 비구조화된 환경에서의 인간-로봇 협업 및 모방 학습에서 의사결정 정렬을 평가하기 위해 인간과 로봇 간의 행동 대응 관계를 이해하는 것이 필수적임을 강조합니다. RGB 비디오의 인간 시범과 복셀화된 RGB-D 공간의 로봇 시범을 명시적으로 모델링하는 다중 모달 데모 학습 프레임워크를 제안합니다. RH20T 데이터셋의 "집어서 놓기" 작업에 초점을 맞춰 5명의 사용자와 10개의 다양한 장면의 데이터를 활용합니다. 인간 의도 모델링을 위한 ResNet 기반 시각적 인코딩과 복셀 기반 로봇 행동 예측을 위한 Perceiver Transformer를 결합합니다. 2000번의 학습 에포크 후, 인간 모델은 71.67%의 정확도에 도달하고 로봇 모델은 71.8%의 정확도를 달성하여 조작 작업에서 복잡하고 다중 모달인 인간과 로봇 행동을 정렬하는 프레임워크의 잠재력을 보여줍니다.
시사점, 한계점
•
시사점: 다중 모달 데모 학습 프레임워크를 통해 인간과 로봇의 복잡한 행동 정렬 가능성을 보여줌. ResNet과 Perceiver Transformer의 효과적인 결합을 제시. 인간-로봇 협업 및 모방 학습 분야에 기여.
•
한계점: RH20T 데이터셋의 "집어서 놓기" 작업에만 국한된 실험. 데이터셋의 규모가 제한적일 수 있음. 다양한 작업 및 환경으로의 일반화 가능성에 대한 추가 연구 필요. 모델의 해석 가능성 및 신뢰성에 대한 추가적인 분석 필요.