본 논문은 다중 모달 대규모 언어 모델(MLLM)의 성능 향상을 위한 경량 모듈인 MoDA(Modulation Adapter)를 제안합니다. 기존 MLLM은 복잡한 장면에서 세밀한 시각 개념을 제대로 이해하는 데 어려움을 겪는데, MoDA는 지시어 기반 변조를 통해 미리 정렬된 시각적 특징을 개선합니다. LLaVA 훈련 프로토콜을 따르는 두 단계 과정(1. 동결된 비전 인코더 및 어댑터 계층을 통한 이미지 특징 정렬, 2. 지시어 조정 단계에서 MoDA 어댑터를 사용한 특징 개선)을 거치며, 트랜스포머 기반 교차 주의 메커니즘을 이용해 언어 지시어에 따라 의미적으로 관련된 임베딩 차원을 강조하는 변조 마스크를 생성합니다. 변조된 특징은 자기 회귀적 언어 생성을 위해 LLM에 전달됩니다. 실험 결과, MoDA는 시각적 기반 강화 및 문맥적으로 적절한 응답 생성을 개선하여 이미지 기반 MLLM에 대한 범용적 향상 기능으로서의 효과를 보여줍니다.