Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation

Created by
  • Haebom
Category
Empty

저자

Zhenjie Mao, Yuhuan Yang, Chaofan Ma, Dongsheng Jiang, Jiangchao Yao, Ya Zhang, Yanfeng Wang

개요

자연어 표현을 통해 이미지 내 특정 객체를 분할하는 Referring Image Segmentation (RIS) 연구는 단순한 표현 (예: "빨간색 자동차")에 초점을 맞춰왔다. 본 연구는 객체 관련 문맥 정보를 포함하는 표현과 객체 클래스가 명시되지 않은 표현과 같은, 실제 환경에서 어려운 두 가지 시나리오를 식별한다. 이를 해결하기 위해 인간의 인지 과정을 모방한 프레임워크인 SaFiRe를 제안한다. SaFiRe는 Mamba의 스캔 후 업데이트 속성을 활용하여 효율적인 멀티 사이클 정제를 수행한다. 또한 모호한 표현에 대한 RIS 모델을 평가하기 위한 새로운 벤치마크 aRefCOCO를 도입했다. SaFiRe는 기존 및 제안된 데이터셋에서 최첨단 기반 모델보다 우수한 성능을 입증했다.

시사점, 한계점

시사점:
모호한 참조 표현을 처리하는 RIS 모델 개발의 필요성을 강조함.
인간의 인지 과정을 모방한 SaFiRe 프레임워크 제안.
Mamba를 활용하여 효율적인 멀티 사이클 정제를 가능하게 함.
새로운 벤치마크 aRefCOCO를 통해 모델 평가를 개선함.
SaFiRe가 기존 모델보다 우수한 성능을 보임.
한계점:
논문에서 제시된 구체적인 SaFiRe의 구현 방식과 관련한 세부 정보가 부족할 수 있음.
aRefCOCO의 한계 및 다른 데이터셋과의 비교에 대한 추가적인 분석이 필요할 수 있음.
SaFiRe의 일반화 능력 및 다른 RIS 작업에 대한 적용 가능성에 대한 추가 연구가 필요할 수 있음.
👍