본 논문은 다중 모달 대규모 언어 모델(MLLM)에서 발생하는 비전-언어 불일치 문제를 해결하기 위해, 기존 MLLM의 코어 아키텍처를 재검토하여 새로운 MLLM인 AKI를 제안합니다. 대부분의 MLLM은 인과적 어텐션 메커니즘을 기반으로 하는 디코더 전용 LLM으로 구성되어, 초기 모달리티(예: 이미지)가 후기 모달리티(예: 텍스트)의 정보를 통합하는 능력이 제한됩니다. AKI는 모달리티 상호 어텐션(MMA)을 통해 인과적 어텐션을 개선하여 이미지 토큰이 텍스트 토큰에 주의를 기울일 수 있도록 합니다. 추가적인 파라미터나 훈련 시간 증가 없이 12개의 다중 모달 이해 벤치마크에서 평균 7.2% 향상된 성능을 달성합니다. MMA 설계는 다양한 모달리티와 다중 모달 시나리오에 적용 가능하도록 일반적이고 확장 가능하도록 설계되었습니다. 코드는 공개적으로 제공되며, AKI-4B 모델도 공개될 예정입니다.