Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation

Created by
  • Haebom

저자

Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer

개요

본 논문은 참조 오디오-비주얼 분할(Ref-AVS) 문제에 대한 새로운 접근 방식인 TGS-Agent를 제안합니다. 기존의 Ref-AVS 방법들은 다중 모드 융합을 통해 잠재적 임베딩을 학습하여 조정 가능한 SAM/SAM2 디코더를 사용하는데, 이는 강력한 픽셀 수준의 지도를 필요로 하고 해석력이 부족합니다. TGS-Agent는 명시적인 참조 이해라는 새로운 관점에서, Think-Ground-Segment라는 세 단계 과정으로 문제를 분해합니다. 이는 인간의 추론 과정을 모방하여 먼저 다중 모드 분석을 통해 참조 대상을 식별하고, 그 다음에 조잡한 접지(grounding)와 정밀한 분할을 수행합니다. 이를 위해 다중 모달 언어 모델인 Ref-Thinker를 제안하고, Ref-Thinker 미세 조정을 위한 명시적인 객체 인식 사고-응답 체인으로 구성된 지시 조정 데이터 세트를 구축합니다. Ref-Thinker에 의해 추론된 객체 설명은 픽셀 수준의 지도 없이 접지와 분할을 수행하는 Grounding-DINO와 SAM2에 대한 명시적인 프롬프트로 사용됩니다. 또한, 모델의 일반화 능력을 더 잘 평가하기 위해 언어적으로 다양하고 추론 집약적인 참조를 포함하는 새로운 벤치마크인 R²_AVSBench를 도입합니다. TGS-Agent는 표준 Ref-AVSBench와 제안된 R²_AVSBench 모두에서 최첨단 결과를 달성합니다. 코드는 https://github.com/jasongief/TGS-Agent 에서 공개될 예정입니다.

시사점, 한계점

시사점:
명시적인 참조 이해를 기반으로 한 새로운 Ref-AVS 프레임워크 제시
픽셀 수준 지도 없이 정확한 분할 가능
인간의 추론 과정을 모방한 Think-Ground-Segment 프로세스의 효과성 증명
새로운 벤치마크 R²_AVSBench 제시를 통한 모델 일반화 성능 평가 향상
최첨단 성능 달성
한계점:
Ref-Thinker의 성능이 전체 시스템 성능에 크게 영향을 미칠 수 있음. Ref-Thinker의 오류는 downstream task에 영향을 줄 수 있다.
R²_AVSBench의 규모와 다양성이 더욱 확장될 필요가 있음.
Grounding-DINO와 SAM2에 대한 의존성이 존재. 다른 접지 및 분할 모델로의 확장성 검증 필요.
실시간 처리 속도에 대한 검토 필요.
👍