Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CLASH: A Benchmark for Cross-Modal Contradiction Detection

Created by
  • Haebom
Category
Empty

저자

Teodora Popordanoska, Jiameng Li, Matthew B. Blaschko

CLASH: A Benchmark for Multimodal Contradiction Detection

개요

본 논문은 현실 세계에서 흔히 발생하는 상반된 멀티모달 입력을 다루기 위해, 기존 벤치마크가 놓치고 있는 교차 모달 모순 감지 능력을 평가하는 새로운 벤치마크 CLASH를 소개한다. CLASH는 COCO 이미지와 객체 수준 또는 속성 수준의 모순을 포함하는 상반된 캡션을 결합하여 구성된다. 샘플은 객관식 및 개방형 형식으로 평가되는 타겟 질문을 포함하며, 자동 품질 검사를 거친 대규모 미세 조정 세트와 소규모의 사람이 검증한 진단 세트를 제공한다. 최첨단 모델 분석 결과, 교차 모달 충돌을 인식하는 데 심각한 한계가 있으며, 체계적인 모달리티 편향과 범주별 약점을 드러냈다. CLASH에 대한 타겟 미세 조정은 충돌 감지 능력을 크게 향상시켰다.

시사점, 한계점

현실적인 상황에서 중요한 교차 모달 모순 감지 능력을 평가하는 새로운 벤치마크 제시
COCO 이미지와 모순된 캡션을 활용하여 객체 및 속성 수준의 모순을 포함하는 데이터 구성
객관식 및 개방형 형식의 타겟 질문을 통해 모델 평가
자동 품질 검사를 거친 대규모 미세 조정 세트 및 사람이 검증한 진단 세트 제공
최첨단 모델의 교차 모달 충돌 감지 능력의 한계점을 노출
모달리티 편향 및 범주별 약점 확인
CLASH에 대한 타겟 미세 조정으로 충돌 감지 능력 향상 입증
해당 논문의 한계점은 명시되지 않음.
👍