본 논문은 거대 다중 모달 모델(LMMs)에서 시각적 지시어 튜닝 단계의 지시어 품질이 모달 정렬 성능에 미치는 영향을 평가합니다. 특히, 어휘, 문법, 문장 구조 선택을 통해 특정 의미를 전달하는 '쓰기 방식'이라는 독특한 관점에서 지시어 품질을 평가합니다. LMMs 내 시각적 지시어와 기본 거대 언어 모델(LLMs) 간의 상당한 쓰기 방식 차이가 존재하며, 이 차이로 인해 사전 훈련된 기본 LLMs가 원래 쓰기 스타일에서 벗어나고, 기본 LLMs와 LMMs 모두의 성능 저하를 초래한다고 주장합니다. 이를 해결하기 위해, 기본 LLM을 직접 활용하여 소프트 포맷 시각적 지시어의 쓰기 방식을 기본 LLM 자체의 쓰기 방식과 일치시키는 새로운 LLM 정렬 지시어를 제안합니다. 수동 쓰기 방식 평가 결과, 제안된 방법이 쓰기 방식 차이를 성공적으로 최소화함을 보여줍니다. LLM 정렬 지시어를 사용하여 기준 모델인 LLaVA-7B와 QwenVL은 환각에 대한 저항성이 향상되었고, 15개의 시각 및 언어 벤치마크에서 모두 상당한 성능 향상을 보였습니다.