EfficientSAM3는 이미지와 비디오 전반에서 Promptable Concept Segmentation(PCS)을 수행하는 Segment Anything Model 3(SAM3)의 기능을 활용하면서, 온디바이스 사용에 적합하도록 설계된 효율적인 모델 제품군입니다. Progressive Hierarchical Distillation (PHD)을 사용하여 SAM3의 기능을 경량 학생 모델로 이전합니다. PHD는 세 단계로 진행됩니다: (1) Encoder Distillation은 SA-1B에서 프롬프트 기반 훈련을 통해 이미지 특징을 정렬합니다. (2) Temporal Memory Distillation은 밀집 메모리를 컴팩트한 Perceiver 기반 모듈로 대체하여 SA-V에서 훈련을 통해 시공간 특징을 효율적으로 압축하고 검색합니다. (3) End-to-End Fine-Tuning은 공식 SAM3 PCS 데이터에서 전체 파이프라인을 미세 조정하여 개념 수준의 성능을 유지합니다. PHD는 RepViT, TinyViT, EfficientViT 백본을 사용하여 다양한 학생 모델을 생성하여 온디바이스 개념 분할 및 추적을 가능하게 하며, 동시에 교사 모델의 동작에 대한 높은 충실도를 유지합니다.