Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decode

Created by
  • Haebom

저자

Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang

개요

본 논문은 참조 표현 분할(RES) 문제를 해결하기 위해 새로운 프레임워크인 MLLMSeg를 제안합니다. MLLM(다중 모드 대규모 모델)의 장점을 활용하면서도, 토큰 생성 방식의 한계를 극복하기 위해 추가적인 시각적 인코더 없이 MLLM의 시각적 인코더에 내재된 세부 시각적 특징을 활용합니다. 세부 특징과 의미 특징을 효과적으로 융합하는 DSFF(detail-enhanced and semantic-consistent feature fusion) 모듈과 가벼운 마스크 디코더(34M 파라미터)를 통해 정확도와 효율성을 동시에 달성합니다. 실험 결과, 기존 SAM 기반 및 SAM 비기반 방법들을 능가하는 성능을 보이며, 성능과 비용 간의 균형을 잘 맞췄음을 보여줍니다.

시사점, 한계점

시사점:
MLLM의 시각적 인코더를 효과적으로 활용하여 추가적인 시각적 인코더 없이도 우수한 성능을 달성.
DSFF 모듈을 통해 세부 및 의미 특징을 효과적으로 융합하여 정확도 향상.
가벼운 마스크 디코더를 통해 계산 비용 절감.
SAM 기반 및 SAM 비기반 방법들에 비해 성능과 비용 측면에서 우수한 성능을 보임.
한계점:
제안된 방법의 성능 향상이 특정 MLLM에 의존적일 수 있음.
다양한 종류의 참조 표현이나 복잡한 이미지에 대한 일반화 성능 평가가 추가적으로 필요함.
DSFF 모듈의 설계가 특정 작업에 최적화되어 다른 작업에 대한 일반화 가능성이 제한될 수 있음.
👍