본 논문은 대규모 언어 모델(LLM)의 다국어 선호도 정렬을 위한 새로운 방법을 제안합니다. 기존의 직접 선호도 최적화(DPO) 방법은 영어 LLM 정렬에 큰 진전을 가져왔지만, 다국어 데이터 부족으로 어려움을 겪고 있습니다. 이를 해결하기 위해, 잘 정렬된 영어 모델에서 학습된 선호도를 암시적 보상으로 포착하고, 반복적인 훈련을 통해 다른 언어로 전이하는 방법을 제시합니다. 구체적으로, 영어 DPO 정렬 모델과 해당 참조 모델의 로짓에서 암시적 보상 모델을 도출하고, 이를 이용하여 영어 지시어를 사용하여 다국어 응답을 평가하여 교차 언어 지시어 따르기 쌍에서 선호도 관계에 주석을 달아줍니다. 이렇게 주석이 달린 데이터는 다국어 DPO 미세 조정에 사용되어 영어에서 다른 언어로 선호도 지식을 전이합니다. Llama3를 두 번 미세 조정한 결과, X-AlpacaEval 리더보드의 모든 훈련 언어에서 승률이 평균 12.72% 향상되고 길이 제어 승률이 5.97% 증가했습니다. 이 연구 결과는 기존의 영어 정렬 모델을 활용하면 효율적이고 효과적인 다국어 선호도 정렬이 가능하며, 광범위한 다국어 선호도 데이터의 필요성을 크게 줄일 수 있음을 보여줍니다. 코드는 https://github.com/ZNLP/Implicit-Cross-Lingual-Rewarding 에서 이용 가능합니다.