Sign In

Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment

Created by
  • Haebom
Category
Empty

저자

Wen Yang, Junhong Wu, Chen Wang, Chengqing Zong, Jiajun Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 다국어 선호도 정렬을 위한 새로운 방법을 제안합니다. 기존의 직접 선호도 최적화(DPO) 방법은 영어 LLM 정렬에 큰 진전을 가져왔지만, 다국어 데이터 부족으로 어려움을 겪고 있습니다. 이를 해결하기 위해, 잘 정렬된 영어 모델에서 학습된 선호도를 암시적 보상으로 포착하고, 반복적인 훈련을 통해 다른 언어로 전이하는 방법을 제시합니다. 구체적으로, 영어 DPO 정렬 모델과 해당 참조 모델의 로짓에서 암시적 보상 모델을 도출하고, 이를 이용하여 영어 지시어를 사용하여 다국어 응답을 평가하여 교차 언어 지시어 따르기 쌍에서 선호도 관계에 주석을 달아줍니다. 이렇게 주석이 달린 데이터는 다국어 DPO 미세 조정에 사용되어 영어에서 다른 언어로 선호도 지식을 전이합니다. Llama3를 두 번 미세 조정한 결과, X-AlpacaEval 리더보드의 모든 훈련 언어에서 승률이 평균 12.72% 향상되고 길이 제어 승률이 5.97% 증가했습니다. 이 연구 결과는 기존의 영어 정렬 모델을 활용하면 효율적이고 효과적인 다국어 선호도 정렬이 가능하며, 광범위한 다국어 선호도 데이터의 필요성을 크게 줄일 수 있음을 보여줍니다. 코드는 https://github.com/ZNLP/Implicit-Cross-Lingual-Rewarding 에서 이용 가능합니다.

시사점, 한계점

시사점:
기존 영어 DPO 모델을 활용하여 다국어 LLM의 선호도 정렬에 필요한 데이터 양을 크게 줄일 수 있음을 보여줌.
암시적 보상 모델을 이용한 효율적인 교차 언어 선호도 전이 방법 제시.
Llama3 모델을 대상으로 실험을 통해 제안된 방법의 효과성을 검증.
X-AlpacaEval 리더보드에서 상당한 성능 향상을 달성.
한계점:
영어 모델의 선호도가 다른 언어에 얼마나 잘 일반화될 수 있는지에 대한 추가적인 연구가 필요.
제안된 방법이 모든 언어 쌍에 대해 동일한 성능을 보장하는지에 대한 검증 필요.
사용된 데이터셋의 특성에 따른 결과의 일반화 가능성에 대한 검토 필요.
특정 언어 쌍이나 특정 작업에 대한 편향 가능성 존재.
👍