Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PropVG: End-to-End Proposal-Driven Visual Grounding with Multi-Granularity Discrimination

Created by
  • Haebom

저자

Ming Dai, Wenxuan Cheng, Jiedong Zhuang, Jiang-jiang Liu, Hongshen Zhao, Zhenhua Feng, Wankou Yang

개요

본 논문은 기존의 비효율적인 제안 기반의 두 단계 접근 방식 대신 효율적인 end-to-end 직접 참조 패러다임을 사용하는 최근의 시각적 접지(visual grounding) 연구 동향을 고려하여, 잠재적인 대상의 이점을 간과하는 기존 방법들의 한계를 극복하고자 제안된 PropVG 모델을 제시합니다. PropVG는 추가적인 검출기를 필요로 하지 않고 전경 객체 제안 생성과 참조 객체 이해를 원활하게 통합하는 end-to-end 제안 기반 프레임워크입니다. 문장 및 단어 수준의 대조 학습을 사용하는 Contrastive-based Refer Scoring (CRS) 모듈과 객체 및 의미 수준 정보를 융합하여 부재 대상의 인식을 향상시키는 Multi-granularity Target Discrimination (MTD) 모듈을 도입하여 다중 입자성 구분 기능을 강화합니다. gRefCOCO, Ref-ZOM, R-RefCOCO, RefCOCO 벤치마크에서 PropVG의 효과를 입증하는 광범위한 실험 결과를 제시하며, 코드와 모델은 깃허브에 공개합니다.

시사점, 한계점

시사점:
end-to-end 제안 기반 프레임워크를 통해 기존의 두 단계 접근 방식의 비효율성을 해결했습니다.
추가적인 검출기 없이 전경 객체 제안 생성과 참조 객체 이해를 통합했습니다.
CRS 모듈을 통해 문장 및 단어 수준의 대조 학습으로 참조 객체 이해 및 구분 능력을 향상시켰습니다.
MTD 모듈을 통해 다중 입자성 구분 기능을 강화하여 부재 대상의 인식률을 높였습니다.
다양한 벤치마크에서 우수한 성능을 입증했습니다.
한계점:
본 논문에서 제시된 한계점은 명시적으로 언급되지 않았습니다. 추가적인 실험이나 분석을 통해 향후 연구 방향을 제시할 수 있을 것입니다. (예: 특정 유형의 참조 표현에 대한 취약성, 다양한 시각적 환경에 대한 일반화 성능 등)
👍