Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multi-Sourced Compositional Generalization in Visual Question Answering

Created by
  • Haebom

저자

Chuanhao Li, Wenbo Ye, Zhen Li, Yuwei Wu, Yunde Jia

개요

본 논문은 시각 및 언어(V&L) 작업에서 최근 주목받고 있는 조합적 일반화(compositional generalization) 능력에 대해 다룹니다. 특히, V&L 작업의 다중 모드 특성으로 인해 조합을 구성하는 기본 요소가 여러 모드에서 유래하는 다중 소스 조합적 일반화(MSCG)에 초점을 맞춥니다. 본 논문에서는 시각적 질문 응답(VQA)의 맥락에서 MSCG를 탐구하고, 서로 다른 모드의 기본 요소에 대해 통합된 표현을 학습하여 VQA 모델의 MSCG 능력을 향상시키는 검색 기반 강화 훈련 프레임워크를 제안합니다. 구체적으로, 훈련 샘플의 각 기본 요소에 대해 의미적으로 동등한 기본 요소를 검색하고, 검색된 특징을 원래 기본 요소와 집계하여 모델을 개선합니다. 이 과정은 모델이 서로 다른 모드에서 동일한 의미 기본 요소에 대해 일관된 표현을 학습하는 데 도움이 됩니다. MSCG 능력을 평가하기 위해 서로 다른 모드의 기본 요소로 구성된 세 가지 유형의 새로운 조합을 포함하는 새로운 GQA-MSCG 데이터 세트를 GQA 데이터 세트를 기반으로 구성했습니다. 실험 결과는 제안된 프레임워크의 효과를 보여줍니다. GQA-MSCG 데이터셋은 https://github.com/NeverMoreLCH/MSCG 에서 공개됩니다.

시사점, 한계점

시사점:
다중 모드 기반의 조합적 일반화(MSCG) 문제를 VQA 맥락에서 최초로 정의하고 연구.
MSCG 능력 향상을 위한 효과적인 검색 기반 강화 훈련 프레임워크 제시.
새로운 GQA-MSCG 데이터셋 구축 및 공개를 통해 향후 연구에 기여.
서로 다른 모드에서 의미적으로 동일한 기본 요소에 대한 일관된 표현 학습 가능성 제시.
한계점:
제안된 프레임워크의 일반화 성능은 GQA-MSCG 데이터셋에 국한될 수 있음. 다른 VQA 데이터셋이나 다른 작업에 대한 일반화 성능 검증 필요.
검색 기반 접근 방식의 효율성 및 확장성에 대한 추가적인 연구 필요.
GQA-MSCG 데이터셋의 규모 및 다양성에 대한 제한으로 인해, 실제 세계의 복잡한 MSCG 문제에 대한 일반화 성능이 제한적일 수 있음.
👍