Sign In

Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction

Created by
  • Haebom
Category
Empty

저자

Shuo Jiang, Haonan Li, Ruochen Ren, Yanmin Zhou, Zhipeng Wang, Bin He

개요

본 논문은 지능형 로봇 분야의 발전을 저해하는 요소 중 하나인 대규모 고품질 데이터셋 부족 문제를 해결하기 위해 Kaiwu 다중 모달 데이터셋을 제시합니다. 복잡한 조립 작업 시나리오에서 실제 세계의 동기화된 다중 모달 데이터(역동적인 정보와 세분화된 레이블 포함) 부족 문제를 해결하는 데 중점을 두고 있습니다. 20명의 피험자와 30개의 상호 작용 객체를 사용하여 총 11,664개의 통합된 행동 인스턴스를 생성하는 인간, 환경, 로봇 데이터 수집 프레임워크를 통합합니다. 각 데모에는 손 동작, 작동 압력, 조립 과정의 소리, 다각도 비디오, 고정밀 모션 캡처 정보, 1인칭 비디오를 통한 시선 추적, 근전도 신호가 모두 기록됩니다. 절대 시간 스탬프와 의미론적 분할 레이블을 기반으로 세분화된 다단계 주석이 수행됩니다. Kaiwu 데이터셋은 로봇 학습, 숙련된 조작, 인간 의도 조사 및 인간-로봇 협업 연구를 촉진하는 것을 목표로 합니다.

시사점, 한계점

시사점:
대규모 고품질 다중 모달 데이터셋 제공을 통해 지능형 로봇 분야 발전에 기여
실제 세계 조립 작업 시나리오를 반영한 풍부한 데이터 제공
다양한 모달리티(손 동작, 압력, 소리, 영상, 모션 캡처, 시선 추적, 근전도) 데이터 통합
세분화된 다단계 주석을 통한 정확한 데이터 분석 가능
로봇 학습, 숙련된 조작, 인간 의도 이해, 인간-로봇 협업 연구에 활용 가능
한계점:
데이터셋의 규모가 다른 대규모 데이터셋에 비해 상대적으로 작을 수 있음 (11,664 instances)
데이터셋의 일반화 성능에 대한 추가적인 검증 필요
특정 조립 작업 시나리오에 국한되어 다른 작업으로의 일반화에 어려움이 있을 수 있음
데이터 수집 과정의 편향성에 대한 고려 필요
👍