FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering
Created by
Haebom
저자
Chengyue Huang, Brisa Maneechotesuwan, Shivang Chopra, Zsolt Kira
개요
본 논문은 실세계 데이터 변화, 특히 다중 모달 맥락에서 적응하는 데 어려움을 겪는 시각적 질의응답(VQA) 시스템의 문제점을 다룹니다. 기존 평가 설정이 주로 단일 모달 또는 특정 유형의 OOD(out-of-distribution)에 국한되어 다중 모달 맥락의 복잡성에 대한 통찰력이 제한적이라는 점을 지적하며, VQA 작업에 대한 강력한 미세 조정을 평가하기 위한 새로운 벤치마크인 FRAMES-VQA(Fine-Tuning Robustness across Multi-Modal Shifts in VQA)를 제안합니다. VQAv2, IV-VQA, VQA-CP, OK-VQA 등 기존 10개의 VQA 벤치마크를 사용하여 단일 모달, 다중 모달 및 적대적 분포 변화를 포함하는 ID, 근접 OOD, 원거리 OOD 데이터셋으로 분류하고, 기존 강력한 미세 조정 방법을 종합적으로 비교 분석합니다. 다양한 모델에서 추출한 단일 모달 및 다중 모달 임베딩을 사용하여 마할라노비스 거리(Mahalanobis distance)를 계산하여 분포 변화를 정량화하고, 단일 모달 및 다중 모달 변화 간의 상호 작용과 ID 및 OOD 샘플에 대한 모달 중요성을 탐구하는 광범위한 분석을 수행하여 다중 모달 분포 변화를 처리하는 보다 강력한 미세 조정 방법 개발에 대한 귀중한 지침을 제공합니다. 코드는 https://github.com/chengyuehuang511/FRAMES-VQA 에서 이용 가능합니다.