EPFL-Smart-Kitchen-30 데이터셋은 주방 환경에서 16명의 피험자가 4가지 레시피를 요리하는 29.7시간 동안의 다양한 모달리티 데이터를 포함하는 다중 뷰 액션 데이터셋입니다. 9개의 정적 RGB-D 카메라, 관성 측정 장치(IMU), HoloLens 2 헤드셋을 사용하여 3D 손, 신체, 시선 움직임을 포착했습니다. 분당 33.78개의 액션 세그먼트로 밀집하게 주석이 달려 있으며, 시각-언어 벤치마크, 의미론적 텍스트-모션 생성 벤치마크, 다중 모달 액션 인식 벤치마크, 자세 기반 액션 분할 벤치마크 등 4가지 벤치마크를 제안하여 행동 이해 및 모델링을 발전시키는 데 활용됩니다.