FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering
Created by
Haebom
저자
Chengyue Huang, Brisa Maneechotesuwan, Shivang Chopra, Zsolt Kira
개요
본 논문은 실세계 데이터 변화, 특히 다중 모드 맥락에서 시각적 질의응답(VQA) 시스템의 적응력 문제를 해결하기 위한 새로운 벤치마크 FRAMES-VQA를 제안합니다. FRAMES-VQA는 VQAv2, IV-VQA, VQA-CP, OK-VQA 등 기존 10개의 VQA 벤치마크를 활용하여 ID(in-distribution), 근접 OOD(out-of-distribution), 원거리 OOD 데이터셋으로 분류하고, 단일 모드, 다중 모드, 적대적 분포 변화를 다룹니다. 기존 강건한 미세 조정 방법들을 비교 분석하고, 다양한 모델에서 추출한 단일 모드 및 다중 모드 임베딩을 사용하여 마할라노비스 거리를 계산하여 분포 변화를 정량화합니다. 또한, 단일 모드 및 다중 모드 변화 간의 상호 작용과 ID 및 OOD 샘플에 대한 모드 중요성을 분석하여 다중 모드 분포 변화를 처리하는 더욱 강건한 미세 조정 방법 개발에 대한 통찰력을 제공합니다. 코드는 https://github.com/chengyuehuang511/FRAMES-VQA 에서 이용 가능합니다.