Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The CASTLE 2024 Dataset: Advancing the Art of Multimodal Understanding

Created by
  • Haebom
Category
Empty

저자

Luca Rossetto, Werner Bailer, Duc-Tien Dang-Nguyen, Graham Healy, Bjorn {\TH}or Jonsson, Onanong Kongmeesub, Hoang-Bao Le, Stevan Rudinac, Klaus Schoffmann, Florian Spiess, Allie Tran, Minh-Triet Tran, Quang-Linh Tran, Cathal Gurrin

개요

CASTLE 2024 데이터셋은 15개의 시간 정렬된 소스로부터 얻어진 다중 모달 데이터(자기중심 및 타중심 비디오 및 오디오, 기타 센서 스트림 및 보조 데이터)를 포함하는 새로운 에고센트릭 비디오 데이터셋입니다. 4일간 고정된 위치에서 10명의 참가자의 자기중심 시점과 5개의 고정 카메라의 타중심 시점을 포함하여 600시간 이상의 UHD 비디오(50fps)를 기록했습니다. 기존 데이터셋과 달리 얼굴 블러링이나 오디오 왜곡과 같은 부분적 검열이 없습니다. 데이터셋은 https://castle-dataset.github.io/ 에서 이용 가능합니다.

시사점, 한계점

시사점:
다중 모달, 다중 시점의 에고센트릭 비디오 데이터 제공으로 다양한 연구 가능성 제시
고품질(UHD, 50fps)의 대용량 데이터 제공
검열되지 않은 원시 데이터 제공으로 더욱 정확한 분석 가능
자기중심 및 타중심 관점의 비교 분석 가능
한계점:
데이터 수집 장소가 고정된 위치라는 점
참가자 수가 제한적임 (10명)
데이터셋의 장기간에 걸친 변화나 다양한 환경에 대한 일반화 성능 검증 필요
👍