Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering

Created by
  • Haebom

저자

Chengyue Huang, Brisa Maneechotesuwan, Shivang Chopra, Zsolt Kira

개요

본 논문은 실세계 데이터 변화, 특히 다중 모드 맥락에서 시각적 질의응답(VQA) 시스템의 적응력 문제를 해결하기 위한 새로운 벤치마크 FRAMES-VQA를 제안합니다. FRAMES-VQA는 VQAv2, IV-VQA, VQA-CP, OK-VQA 등 기존 10개의 VQA 벤치마크를 활용하여 ID(in-distribution), 근접 OOD(out-of-distribution), 원거리 OOD 데이터셋으로 분류하고, 단일 모드, 다중 모드, 적대적 분포 변화를 다룹니다. 기존 강건한 미세 조정 방법들을 비교 분석하고, 다양한 모델에서 추출한 단일 모드 및 다중 모드 임베딩을 사용하여 마할라노비스 거리를 계산하여 분포 변화를 정량화합니다. 또한, 단일 모드 및 다중 모드 변화 간의 상호 작용과 ID 및 OOD 샘플에 대한 모드 중요성을 분석하여 다중 모드 분포 변화를 처리하는 더욱 강건한 미세 조정 방법 개발에 대한 통찰력을 제공합니다. 코드는 https://github.com/chengyuehuang511/FRAMES-VQA 에서 이용 가능합니다.

시사점, 한계점

시사점:
다중 모드 맥락에서 VQA 시스템의 강건한 미세 조정을 평가하기 위한 새로운 벤치마크 FRAMES-VQA 제시
기존 강건한 미세 조정 방법들의 종합적인 비교 분석 및 다중 모드 분포 변화에 대한 정량적 분석 제공
단일 모드 및 다중 모드 변화 간의 상호 작용과 모드 중요성에 대한 분석을 통해 더 강건한 미세 조정 방법 개발에 대한 방향 제시
다양한 유형의 OOD 데이터셋을 포함하여 실제 세계 시나리오에 대한 더 나은 이해 제공
한계점:
FRAMES-VQA 벤치마크 자체의 일반화 성능에 대한 추가적인 검증 필요
제시된 분석 결과가 특정 모델 또는 데이터셋에 편향될 가능성 존재
다양한 유형의 다중 모달리티 데이터에 대한 범용성 확보에 대한 추가 연구 필요
👍