Sign In

Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs

Created by
  • Haebom
Category
Empty

저자

Wei-Yao Wang, Zhao Wang, Helen Suzuki, Yoshiyuki Kobayashi

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)에서 발생하는 비전-언어 불일치 문제를 해결하기 위해, 기존 MLLM의 코어 아키텍처를 재검토하여 새로운 MLLM인 AKI를 제안합니다. 대부분의 MLLM은 인과적 어텐션 메커니즘을 기반으로 하는 디코더 전용 LLM으로 구성되어, 초기 모달리티(예: 이미지)가 후기 모달리티(예: 텍스트)의 정보를 통합하는 능력이 제한됩니다. AKI는 모달리티 상호 어텐션(MMA)을 통해 인과적 어텐션을 개선하여 이미지 토큰이 텍스트 토큰에 주의를 기울일 수 있도록 합니다. 추가적인 파라미터나 훈련 시간 증가 없이 12개의 다중 모달 이해 벤치마크에서 평균 7.2% 향상된 성능을 달성합니다. MMA 설계는 다양한 모달리티와 다중 모달 시나리오에 적용 가능하도록 일반적이고 확장 가능하도록 설계되었습니다. 코드는 공개적으로 제공되며, AKI-4B 모델도 공개될 예정입니다.

시사점, 한계점

시사점:
MLLM의 비전-언어 불일치 문제에 대한 새로운 접근 방식 제시 (아키텍처 개선)
추가적인 파라미터나 훈련 시간 증가 없이 성능 향상
다양한 모달리티와 시나리오에 적용 가능한 일반적인 MMA 설계
오픈소스 코드 및 모델 공개를 통한 연구 활성화
한계점:
제시된 방법의 효과성이 특정 벤치마크에 국한될 가능성
다른 MLLM 아키텍처에 대한 일반화 가능성에 대한 추가 연구 필요
MMA의 효과에 대한 심층적인 분석 필요
👍