Sekai는 세계 곳곳의 100개 이상 국가와 지역, 750개 이상의 도시에서 촬영된 5,000시간 이상의 1인칭 시점(FPV) 및 항공 촬영(UVA) 영상으로 구성된 고품질 영상 데이터셋입니다. 기존 영상 생성 데이터셋의 한계(제한된 위치, 짧은 지속 시간, 정적인 장면, 탐험 및 세계에 대한 주석 부족)를 극복하기 위해 제작되었으며, 위치, 장면, 날씨, 군중 밀도, 캡션, 카메라 궤적 등 풍부한 주석이 포함되어 있습니다. 본 논문에서는 Sekai 데이터셋의 효율적이고 효과적인 수집, 전처리 및 주석 도구를 소개하고, 데이터셋의 질을 실험적으로 검증합니다. 또한, Sekai의 일부분을 사용하여 YUME이라는 대화형 영상 세계 탐험 모델을 훈련시켰습니다.
시사점, 한계점
•
시사점:
◦
기존 영상 생성 데이터셋의 한계를 극복하는 고품질의 대규모 영상 데이터셋 Sekai를 제공합니다.