Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding

Created by
  • Haebom
Category
Empty

저자

Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum

개요

본 논문은 신경망 성능이 모델 크기와 데이터 양에 비례하여 증가한다는 점을 언급하며, 특히 3D 비전 분야에서 Transformer 모델의 발전을 위한 대규모 데이터셋의 필요성을 강조합니다. 기존 최대 규모 데이터셋보다 세 배 이상 큰, 밀집된 의미론적 주석이 포함된 대규모 실세계 3D 데이터셋인 ARKit LabelMaker를 소개합니다. ARKitScenes를 확장하고 LabelMaker 파이프라인을 이용하여 자동으로 밀집 3D 레이블을 생성하는 방식으로 데이터셋을 구축했습니다. ARKit LabelMaker를 이용한 학습은 다양한 아키텍처에서 정확도를 향상시키며, ScanNet과 ScanNet200에서 최첨단 3D 의미론적 분할 성능을 달성하고, 특히 소수 클래스에서 눈에 띄는 성능 향상을 보였습니다. 코드는 https://labelmaker.org 에서, 데이터셋은 https://huggingface.co/datasets/labelmaker/arkit_labelmaker 에서 이용 가능합니다.

시사점, 한계점

시사점:
3D 비전 분야에서 대규모 고품질 데이터셋의 중요성을 입증.
ARKit LabelMaker 데이터셋을 통해 3D 의미론적 분할 성능 향상.
다양한 아키텍처에서 성능 개선을 보임.
소수 클래스(tail classes)에 대한 성능 향상이 두드러짐.
한계점:
ARKit LabelMaker 데이터셋의 구축 과정 및 한계에 대한 자세한 설명 부족.
데이터셋의 편향성(bias)에 대한 분석 부족.
다른 3D 비전 태스크(예: 물체 검출, 포즈 추정)에 대한 성능 평가 부족.
👍