Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs
Created by
Haebom
저자
Danni Liu, Jan Niehues
개요
본 논문은 다양한 언어에 걸쳐 대규모 언어 모델(LLM)의 성능을 향상시키는 새로운 방법을 제시합니다. 많은 언어에서 미세 조정 데이터 부족과 언어 간 성능 차이로 인해 효과적인 언어 간 전이가 어려운 점을 해결하기 위해, 1,000개 이상의 언어 쌍의 LLM 내부 표현을 분석하여 중간층이 언어 간 정렬에 가장 큰 잠재력을 가짐을 발견했습니다. 이를 바탕으로 작업별 학습에 통합된 중간층 정렬 목표를 제안합니다. 슬롯 채우기, 기계 번역, 구조적 텍스트 생성 작업에 대한 실험 결과, 특히 저자원 언어에서 언어 간 전이가 일관되게 향상됨을 보여줍니다. 본 방법은 정렬 언어의 선택에 강건하며, 정렬 중에 보이지 않는 언어로도 일반화됩니다. 또한, 별도로 훈련된 정렬 모듈을 기존의 작업별 모듈과 병합하여 전체 재훈련 없이 언어 간 기능을 향상시킬 수 있음을 보여줍니다. 소스 코드는 공개적으로 제공됩니다 (https://github.com/dannigt/mid-align).