본 논문은 다중 모달 대규모 언어 모델(MLLM)에서 발생하는 비전-언어 불일치 문제를 해결하기 위해, 기존 MLLM의 코어 아키텍처를 재검토하여 모달 상호 주의(MMA) 메커니즘을 도입한 새로운 MLLM인 MapleLeaf AKI를 제안합니다. 기존 MLLM은 인과적 주의 메커니즘 기반의 디코더 전용 모델로, 초기 모달(예: 이미지)이 후기 모달(예: 텍스트)의 정보를 활용하는 데 제한이 있습니다. AKI는 인과적 주의를 MMA로 전환하여 이미지 토큰이 텍스트 토큰에 주의를 기울일 수 있도록 함으로써 이 문제를 해결합니다. 추가적인 파라미터나 훈련 시간 증가 없이 12개의 다중 모달 이해 벤치마크에서 평균 7.2% 향상된 성능을 달성합니다. MMA 설계는 다양한 모달과 다중 모달 시나리오에 적용 가능하도록 일반적이고 확장성 있게 설계되었습니다. 코드와 모델은 공개적으로 제공됩니다.