본 논문은 GPT-4o와 같은 다중 모달 대규모 언어 모델(MLLM)의 빠른 발전이 인공 일반 지능으로 향하는 중요한 발걸음임을 강조합니다. 기존의 방법들은 일반적으로 감독 학습 미세 조정(SFT)을 통해 비전 인코더와 LLM을 정렬하지만, 이는 훈련이 진행됨에 따라 여러 언어를 처리하는 능력을 저하시키는 경향이 있습니다. 특히 영어 중심의 불균형적인 SFT 데이터셋은 다국어 토큰 정렬 실패로 인해 비영어권 언어의 성능을 저하시키는 것을 실험적으로 관찰했습니다. 이를 해결하기 위해 본 논문에서는 언어 수준에서 시각적 토큰 정렬을 위해 텍스트 지침을 활용하는 새로운 접근 방식인 PARROT을 제안합니다. PARROT은 다양한 언어 입력에 시각적 토큰을 조건화하고 전문가 혼합(MoE)을 사용하여 다국어 토큰을 정렬합니다. 초기 시각적 특징과 텍스트 임베딩 간의 교차 주의를 계산하여 가장 관련성이 높은 전문가를 선택하고 시각적 토큰을 언어별 표현으로 변환합니다. 또한 다국어 기능을 평가하기 위해 6개 언어, 15개 범주, 12,000개 질문으로 구성된 새로운 벤치마크인 대규모 다국어 다중 모달 벤치마크(MMMB)를 도입합니다. PARROT은 다국어 벤치마크와 광범위한 다중 모달 작업 모두에서 최첨단 성능을 달성합니다. 코드와 데이터셋은 https://github.com/AIDC-AI/Parrot 에서 이용 가능합니다.