Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Parrot: Multilingual Visual Instruction Tuning

Created by
  • Haebom

저자

Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye

개요

본 논문은 GPT-4o와 같은 다중 모달 대규모 언어 모델(MLLM)의 빠른 발전이 인공 일반 지능으로 향하는 중요한 발걸음임을 강조합니다. 기존의 방법들은 일반적으로 감독 학습 미세 조정(SFT)을 통해 비전 인코더와 LLM을 정렬하지만, 이는 훈련이 진행됨에 따라 여러 언어를 처리하는 능력을 저하시키는 경향이 있습니다. 특히 영어 중심의 불균형적인 SFT 데이터셋은 다국어 토큰 정렬 실패로 인해 비영어권 언어의 성능을 저하시키는 것을 실험적으로 관찰했습니다. 이를 해결하기 위해 본 논문에서는 언어 수준에서 시각적 토큰 정렬을 위해 텍스트 지침을 활용하는 새로운 접근 방식인 PARROT을 제안합니다. PARROT은 다양한 언어 입력에 시각적 토큰을 조건화하고 전문가 혼합(MoE)을 사용하여 다국어 토큰을 정렬합니다. 초기 시각적 특징과 텍스트 임베딩 간의 교차 주의를 계산하여 가장 관련성이 높은 전문가를 선택하고 시각적 토큰을 언어별 표현으로 변환합니다. 또한 다국어 기능을 평가하기 위해 6개 언어, 15개 범주, 12,000개 질문으로 구성된 새로운 벤치마크인 대규모 다국어 다중 모달 벤치마크(MMMB)를 도입합니다. PARROT은 다국어 벤치마크와 광범위한 다중 모달 작업 모두에서 최첨단 성능을 달성합니다. 코드와 데이터셋은 https://github.com/AIDC-AI/Parrot 에서 이용 가능합니다.

시사점, 한계점

시사점:
다국어 다중 모달 모델의 성능 향상을 위한 새로운 방법론인 PARROT 제시
불균형적인 SFT 데이터셋의 문제점을 해결하고 다국어 성능 향상
다국어 다중 모달 작업 평가를 위한 새로운 벤치마크 MMMB 제시
다양한 다중 모달 작업에서 최첨단 성능 달성
한계점:
MMMB 벤치마크의 언어 및 범주 다양성이 제한적일 수 있음
PARROT의 성능 향상이 특정 데이터셋 또는 작업에 편향될 가능성 존재
MoE 사용으로 인한 계산 비용 증가 가능성
👍