Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SAM 3: Segment Anything with Concepts

Created by
  • Haebom
Category
Empty

저자

Nicolas Carion, Laura Gustafson, Yuan-Ting Hu, Shoubhik Debnath, Ronghang Hu, Didac Suris, Chaitanya Ryali, Kalyan Vasudev Alwala, Haitham Khedr, Andrew Huang, Jie Lei, Tengyu Ma, Baishan Guo, Arpit Kalla, Markus Marks, Joseph Greer, Meng Wang, Peize Sun, Roman Radle, Triantafyllos Afouras, Effrosyni Mavroudi, Katherine Xu, Tsung-Han Wu, Yu Zhou, Liliane Momeni, Rishi Hazra, Shuangrui Ding, Sagar Vaze, Francois Porcher, Feng Li, Siyuan Li, Aishwarya Kamath, Ho Kei Cheng, Piotr Dollar, Nikhila Ravi, Kate Saenko, Pengchuan Zhang, Christoph Feichtenhofer

개요

Segment Anything Model (SAM) 3는 이미지와 비디오에서 개념 프롬프트(짧은 명사구, 이미지 예시, 또는 이들의 조합)를 기반으로 객체를 감지, 분할 및 추적하는 통합 모델이다. Promptable Concept Segmentation (PCS)은 이러한 프롬프트를 사용하여 일치하는 모든 객체 인스턴스에 대한 분할 마스크와 고유한 ID를 반환한다. SAM 3은 4백만 개의 고유한 개념 레이블을 가진 고품질 데이터 세트를 구축하고, 이미지 수준 감지기와 메모리 기반 비디오 추적기를 활용하며, 감지 정확도를 높이는 presence head를 사용한다. SAM 3은 이미지 및 비디오 PCS에서 기존 시스템의 정확도를 두 배로 높이고, 시각적 분할 작업에서 기존 SAM의 성능을 향상시킨다. SAM 3과 새로운 SA-Co 벤치마크를 공개한다.

시사점, 한계점

시사점:
개념 프롬프트를 기반으로 이미지와 비디오 내 객체 분할, 감지, 추적 통합
대규모 데이터셋 구축을 통한 모델 성능 향상
기존 SAM 모델의 기능 개선 및 정확도 향상
새로운 SA-Co 벤치마크 공개를 통한 연구 활성화
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음
👍