Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EfficientSAM3: Progressive Hierarchical Distillation for Video Concept Segmentation from SAM1, 2, and 3

Created by
  • Haebom
Category
Empty

저자

Chengxi Zeng, Yuxuan Jiang, Aaron Zhang

개요

EfficientSAM3는 이미지와 비디오 전반에서 Promptable Concept Segmentation(PCS)을 수행하는 Segment Anything Model 3(SAM3)의 기능을 활용하면서, 온디바이스 사용에 적합하도록 설계된 효율적인 모델 제품군입니다. Progressive Hierarchical Distillation (PHD)을 사용하여 SAM3의 기능을 경량 학생 모델로 이전합니다. PHD는 세 단계로 진행됩니다: (1) Encoder Distillation은 SA-1B에서 프롬프트 기반 훈련을 통해 이미지 특징을 정렬합니다. (2) Temporal Memory Distillation은 밀집 메모리를 컴팩트한 Perceiver 기반 모듈로 대체하여 SA-V에서 훈련을 통해 시공간 특징을 효율적으로 압축하고 검색합니다. (3) End-to-End Fine-Tuning은 공식 SAM3 PCS 데이터에서 전체 파이프라인을 미세 조정하여 개념 수준의 성능을 유지합니다. PHD는 RepViT, TinyViT, EfficientViT 백본을 사용하여 다양한 학생 모델을 생성하여 온디바이스 개념 분할 및 추적을 가능하게 하며, 동시에 교사 모델의 동작에 대한 높은 충실도를 유지합니다.

시사점, 한계점

온디바이스 개념 분할 및 추적을 위한 효율적인 모델 개발.
SAM3의 기능을 경량 모델로 이전하기 위한 Progressive Hierarchical Distillation (PHD) 방법론 제시.
RepViT, TinyViT, EfficientViT 백본을 사용하여 성능-효율성 트레이드오프 달성.
인기 있는 VOS 데이터셋에 대한 벤치마킹 및 관련 연구와의 비교.
구체적인 한계점은 논문에서 명시되지 않음. (논문 요약 정보만으로는 한계점을 파악하기 어려움)
👍