Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mitigating Modal Imbalance in Multimodal Reasoning

Created by
  • Haebom

저자

Chen Henry Wu, Neil Kale, Aditi Raghunathan

개요

다중 모드(modalities)를 통합하는 파운데이션 모델(FMs)이 여러 모드 간의 상호 작용과 관계를 이해하고, 충돌하는 정보를 처리하는 능력을 평가하는 연구. 실험 결과, FMs는 단일 모드 내에서는 충돌을 잘 인식하지만, 여러 모드에 정보가 분산될 경우 충돌 인식 능력이 급격히 저하됨. 이는 크로스 모달(cross-modal) 어텐션 불균형으로 인해 특정 모드에 과도하게 집중하기 때문이며, 크로스 모달 추론을 명시적으로 요구하는 훈련 데이터가 부족하기 때문임. 훈련 인스턴스 내에서 여러 모드를 명시적으로 결합하는 간단한 방법으로 어텐션 불균형을 줄이고, 다운스트림 성능을 향상시킬 수 있음을 보임.

시사점, 한계점

시사점:
파운데이션 모델의 크로스 모달 추론 능력에 대한 중요한 통찰 제공.
크로스 모달 어텐션 불균형이 성능 저하의 주요 원인임을 밝힘.
명시적인 크로스 모달 추론을 위한 훈련 데이터의 중요성을 강조.
간단한 방법으로 어텐션 불균형을 완화하고 성능을 향상시킬 수 있음을 제시.
한계점:
특정 벤치마크 및 실험 환경에 국한될 수 있음.
제안된 방법의 일반화 가능성에 대한 추가 연구 필요.
크로스 모달 어텐션 불균형의 근본적인 원인에 대한 추가 분석 필요.
👍