본 논문은 조립/분해, 물류 및 정리, 검사 및 수리, 목공 등 일반적인 산업 작업을 다루는 다중 모드 에고센트릭 및 엑소센트릭 데이터 세트인 IndEgo를 소개합니다. 이 데이터 세트는 3,460개의 에고센트릭 녹화 (약 197시간)와 1,092개의 엑소센트릭 녹화 (약 97시간)를 포함합니다. 데이터 세트의 핵심 초점은 두 명의 작업자가 인지적 및 육체적으로 강렬한 작업을 공동으로 수행하는 협업 작업입니다. 에고센트릭 녹화에는 풍부한 다중 모드 데이터와 시선, 내레이션, 사운드, 동작 등을 통한 추가 컨텍스트가 포함됩니다. 자세한 주석 (작업, 요약, 실수 주석, 내레이션), 메타데이터, 처리된 출력 (시선, 손 자세, 반밀도 포인트 클라우드) 및 절차적 및 비절차적 작업 이해, 실수 감지 및 추론 기반 질의 응답에 대한 벤치마크를 제공합니다. 실수 감지, 질의 응답 및 협업 작업 이해에 대한 기본 평가를 통해 데이터 세트가 최첨단 다중 모드 모델에 도전 과제를 제시함을 알 수 있습니다.