Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization

Created by
  • Haebom

저자

Inigo Pikabea, Inaki Lacunza, Oriol Pareras, Carlos Escolano, Aitor Gonzalez-Agirre, Javier Hernando, Marta Villegas

개요

본 논문은 시각 언어 모델(VLMs)의 영어 중심적 응답 생성 문제, 즉 이미지 유도 충실도 손실(IFL)을 해결하기 위한 새로운 방법을 제안한다. 기존 VLMs는 다국어 학습 데이터 부족으로 인해 입력 언어에 관계없이 영어로만 응답하는 경향이 있다. 이를 해결하기 위해, 본 논문은 시각적 지시 조정 과정에 텍스트 전용 다국어 데이터를 지속적으로 통합하는 전략을 제시한다. 이를 통해 언어 모델의 원래 다국어 기능을 유지하면서 다양한 언어에 대한 언어적 충실도를 크게 향상시키고, 시각적 성능 저하 없이 달성한다는 것을 실험적으로 보여준다. 모델 병합 또한 언급하지만, 이는 언어 충실도를 높이는 대신 시각적 성능을 희생하는 반면, 제안하는 방법은 이러한 트레이드오프 없이 견고한 다국어 정렬을 달성한다.

시사점, 한계점

시사점:
시각 언어 모델의 다국어 지원 향상을 위한 효과적인 전략 제시.
이미지 유도 충실도 손실(IFL) 문제 완화 및 글로벌 VLM 채택 확대 가능성 제시.
시각적 성능 저하 없이 다국어 언어적 충실도 향상.
확장 가능하고 효율적인 IFL 완화 방법 제시.
한계점:
제안된 방법의 다양한 VLMs 및 다양한 언어에 대한 일반화 성능에 대한 추가적인 연구 필요.
모델 병합 전략의 시각적 성능 저하 원인에 대한 심층적인 분석 필요.
특정 언어 쌍 또는 언어 그룹에서의 성능 차이에 대한 추가적인 분석 필요.
👍