Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs

Created by
  • Haebom

저자

Lucas Bandarkar, Nanyun Peng

개요

본 논문은 저자원 언어에서의 수학적 추론 과제 수행능력 향상을 위한 대규모 언어 모델(LLM)의 교차 언어 전이 학습에 대해 연구한다. 수학적 추론과 다국어 능력에 중요한 모델 파라미터의 부분집합이 서로 겹치지 않는다는 점을 확인하고, 이러한 특징을 활용하여 파인튜닝 과정에서 두 가지 능력을 개선하기 위한 다양한 모듈식 프레임워크를 개발 및 분석한다. 모듈식 접근법은 파라미터 고정 또는 사후 모델 병합을 통해 수학 능력과 언어 능력 향상을 모델의 서로 다른 부분에 할당한다. 저자원 언어의 수학 데이터 부재에도 불구하고, 세 가지 언어, 네 가지 모델, 두 가지 파인튜닝 방식(전체 파인튜닝 및 LoRA)에 걸쳐 기준 모델보다 성능이 향상됨을 보여준다. 가장 효과적인 모듈식 방법으로는 언어 및 수학 전문가를 별도로 파인튜닝하고 Layer-Swapping을 통해 모델을 병합하는 방법이 확인되었으며, 이에 대한 가능한 설명과 실험적 증거를 제시한다.

시사점, 한계점

시사점:
저자원 언어에서의 LLM 수학적 추론 능력 향상을 위한 효과적인 모듈식 파인튜닝 프레임워크 제시.
수학적 추론과 다국어 능력 향상에 중요한 모델 파라미터의 분리 가능성을 활용한 새로운 접근법 제시.
Layer-Swapping을 통한 모델 병합이 효과적인 방법으로 확인됨.
덜 유용한 파인튜닝 업데이트를 되돌리는 것이 파라미터 고정보다 성능이 더 나을 수 있음을 보여줌.
한계점:
제시된 모듈식 프레임워크의 일반화 가능성에 대한 추가 연구 필요.
다양한 저자원 언어와 과제에 대한 추가적인 실험 필요.
Layer-Swapping의 효과에 대한 이론적 설명이 더 필요함.
👍