본 논문은 지능형 로봇 분야의 발전을 저해하는 요소 중 하나인 대규모 고품질 데이터셋 부족 문제를 해결하기 위해 Kaiwu 다중 모달 데이터셋을 제시합니다. 복잡한 조립 시나리오에서 동적인 정보와 정교한 라벨링을 포함한 실제 세계의 동기화된 다중 모달 데이터를 제공합니다. 20명의 피험자와 30개의 상호 작용 객체를 통해 수집된 11,664개의 통합된 행동 인스턴스를 포함하며, 각 시연에 대해 손 동작, 조작 압력, 조립 과정의 소리, 다각도 비디오, 고정밀 모션 캡처 정보, 1인칭 시점 비디오를 통한 시선 추적, 근전도 신호 등을 기록하고 절대 시간 및 의미론적 분할 라벨링을 기반으로 정교한 다단계 주석을 수행합니다. Kaiwu 데이터셋은 로봇 학습, 숙련된 조작, 인간 의도 조사 및 인간-로봇 협업 연구를 촉진하는 것을 목표로 합니다.