본 논문은 지능형 로봇 분야의 발전을 저해하는 요소 중 하나인 대규모 고품질 데이터셋 부족 문제를 해결하기 위해 Kaiwu 다중 모달 데이터셋을 제시합니다. 복잡한 조립 작업 시나리오에서 실제 세계의 동기화된 다중 모달 데이터(역동적인 정보와 세분화된 레이블 포함) 부족 문제를 해결하는 데 중점을 두고 있습니다. 20명의 피험자와 30개의 상호 작용 객체를 사용하여 총 11,664개의 통합된 행동 인스턴스를 생성하는 인간, 환경, 로봇 데이터 수집 프레임워크를 통합합니다. 각 데모에는 손 동작, 작동 압력, 조립 과정의 소리, 다각도 비디오, 고정밀 모션 캡처 정보, 1인칭 비디오를 통한 시선 추적, 근전도 신호가 모두 기록됩니다. 절대 시간 스탬프와 의미론적 분할 레이블을 기반으로 세분화된 다단계 주석이 수행됩니다. Kaiwu 데이터셋은 로봇 학습, 숙련된 조작, 인간 의도 조사 및 인간-로봇 협업 연구를 촉진하는 것을 목표로 합니다.