Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Zero-Shot Referring Expression Comprehension via Visual-Language True/False Verification

Created by
  • Haebom

저자

Jeffrey Liu, Rongbin Hu

개요

본 논문은 기존의 Referring Expression Comprehension (REC) 작업에서 과제별로 학습된 접지 모델을 사용하는 방식 대신, REC 특정 훈련 없이 제로샷 방식으로 경쟁력 있는 또는 우수한 성능을 달성할 수 있음을 보여줍니다. COCO-clean 일반 감지기(YOLO-World)에서 제안된 박스에 대해 일반 목적의 시각 언어 모델(VLM)이 True/False 질의에 독립적으로 답변하는 박스 단위 시각-언어 검증으로 REC를 재구성합니다. 이 간단한 절차는 박스 간 간섭을 줄이고, 기권 및 다중 일치를 지원하며, 미세 조정이 필요하지 않습니다. RefCOCO, RefCOCO+, RefCOCOg 데이터셋에서 제로샷 GroundingDINO 기준선을 능가할 뿐만 아니라 REC에 대해 훈련된 GroundingDINO 및 GroundingDINO+CRG의 보고된 결과를 뛰어넘는 성능을 보입니다. 동일한 제안을 사용한 통제 연구는 검증이 선택 기반 프롬프팅보다 훨씬 우수함을 확인했으며, 결과는 개방형 VLM에서도 유지됩니다. 결론적으로, 과제 특정 사전 훈련보다는 워크플로우 설계가 강력한 제로샷 REC 성능을 좌우함을 보여줍니다.

시사점, 한계점

시사점:
REC 과제에 특화된 학습 없이도 제로샷 방식으로 우수한 성능 달성 가능성 제시
박스 단위 검증 방식을 통해 박스 간 간섭 감소 및 기권/다중 일치 지원
워크플로우 설계의 중요성 강조: 과제 특정 사전 훈련보다 워크플로우 디자인이 성능에 더 큰 영향
일반 목적 VLM과 YOLO-World와 같은 기존 모델을 활용하여 효율적인 시스템 구축 가능성 제시
한계점:
제안된 방식의 성능이 YOLO-World와 같은 기본 감지기의 성능에 의존적일 수 있음.
복잡하거나 모호한 참조 표현에 대한 일반화 성능에 대한 추가 연구 필요.
특정 도메인이나 데이터셋에 대한 편향성 존재 가능성.
다른 VLM이나 감지기 사용 시 성능 변화에 대한 추가 실험 필요.
👍