Sign In

Languages are Modalities: Cross-Lingual Alignment via Encoder Injection

Created by
  • Haebom
Category
Empty

저자

Rajan Agarwal, Aarush Gupta

개요

본 논문은 토큰 분열 및 약한 상호 언어 결합으로 인해 저자원, 비 라틴 문자에 대해 Instruction-tuned Large Language Model(LLM)의 성능 저하 문제를 해결하고자 합니다. 이를 위해 LLINK(Latent Language Injection for Non-English Knowledge)라는, 토크나이저 변경이나 디코더 재학습 없이 instruction-tuned 디코더를 조건화하는 계산 효율적인 language-as-modality 방법을 제시합니다. LLINK는 고정된 다국어 인코더의 문장 임베딩을 가벼운 대조 프로젝터를 통해 디코더의 잠재 임베딩 공간에 정렬하고, 이를 K개의 소프트 슬롯으로 확장하여 최소한의 어댑터를 사용하여 훈련합니다. 그 결과, LLINK는 양방향 검색 성능을 크게 향상시켰으며, LLM 기반 Q&A 평가에서 기본 모델보다 81.3%, 직접적인 미세 조정보다 63.6% 높은 선호도를 얻었습니다. 이러한 성능 향상은 토큰화 팽창 감소와 강력한 상호 언어 정렬에 기인하며, 수치 정확성에는 약점을 보입니다.

시사점, 한계점

시사점:
저자원 언어에 대한 LLM 성능 향상을 위해 language-as-modality 접근 방식의 효과를 입증.
토크나이저 변경 없이 경량화된 모델로도 강력한 상호 언어 정렬 가능성 제시.
Bilingual retrieval 성능 향상 및 LLM-judged Q&A 평가에서 우수한 성능 달성.
한계점:
수치 정확성 측면에서 약점이 존재.
👍