본 논문은 시각 언어 모델(VLMs)의 영어 중심적 응답 생성 문제, 즉 이미지 유도 충실도 손실(IFL)을 해결하기 위한 새로운 방법을 제안한다. 기존 VLMs는 다국어 학습 데이터 부족으로 인해 입력 언어에 관계없이 영어로만 응답하는 경향이 있다. 이를 해결하기 위해, 본 논문은 시각적 지시 조정 과정에 텍스트 전용 다국어 데이터를 지속적으로 통합하는 전략을 제시한다. 이를 통해 언어 모델의 원래 다국어 기능을 유지하면서 다양한 언어에 대한 언어적 충실도를 크게 향상시키고, 시각적 성능 저하 없이 달성한다는 것을 실험적으로 보여준다. 모델 병합 또한 언급하지만, 이는 언어 충실도를 높이는 대신 시각적 성능을 희생하는 반면, 제안하는 방법은 이러한 트레이드오프 없이 견고한 다국어 정렬을 달성한다.