Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment

Created by
  • Haebom

저자

Wen Yang, Junhong Wu, Chen Wang, Chengqing Zong, Jiajun Zhang

개요

본 논문은 대규모 언어 모델(LLM)의 다국어 선호도 정렬을 위한 새로운 방법을 제시합니다. 영어로 잘 정렬된 모델에서 학습된 선호도를 암시적 보상으로 포착하여 반복적인 훈련을 통해 다른 언어로 전이하는 방법입니다. 구체적으로, 영어 DPO(Direct Preference Optimization) 정렬 모델과 해당 참조 모델의 로짓에서 암시적 보상 모델을 도출하고, 이를 활용하여 영어 지시어를 사용하여 다국어 응답을 평가함으로써, 교차 언어 지시어 따르기 쌍의 선호도 관계에 주석을 달았습니다. 주석이 달린 데이터는 다국어 DPO 미세 조정에 사용되어 영어에서 다른 언어로 선호도 지식 전이를 용이하게 합니다. Llama3 모델을 두 번 반복하여 미세 조정한 결과, X-AlpacaEval 리더보드에서 모든 훈련 언어에 걸쳐 승률이 평균 12.72% 향상되고 길이 제어 승률이 5.97% 증가했습니다. 이는 기존의 영어 정렬 모델을 활용하면 다국어 선호도 데이터에 대한 광범위한 필요성을 크게 줄이면서 효율적이고 효과적인 다국어 선호도 정렬이 가능함을 보여줍니다. 코드는 https://github.com/ZNLP/Implicit-Cross-Lingual-Rewarding 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
영어로 잘 정렬된 LLM을 활용하여 다국어 선호도 정렬을 효율적으로 수행하는 새로운 방법 제시
다국어 선호도 데이터 부족 문제 해결에 기여
Llama3 모델을 대상으로 실험을 통해 성능 향상을 입증 (승률 및 길이 제어 승률 향상)
기존의 영어 정렬 모델 재활용을 통해 다국어 데이터 수집에 대한 부담 감소
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 언어 및 LLM 모델에 대한 실험 결과 확장 필요
암시적 보상 모델의 신뢰성 및 해석 가능성에 대한 추가적인 분석 필요
영어 모델의 편향이 다른 언어로 전이될 가능성 고려 필요
👍