본 논문은 대규모 언어 모델(LLM)의 다국어 선호도 정렬을 위한 새로운 방법을 제시합니다. 영어로 잘 정렬된 모델에서 학습된 선호도를 암시적 보상으로 포착하여 반복적인 훈련을 통해 다른 언어로 전이하는 방법입니다. 구체적으로, 영어 DPO(Direct Preference Optimization) 정렬 모델과 해당 참조 모델의 로짓에서 암시적 보상 모델을 도출하고, 이를 활용하여 영어 지시어를 사용하여 다국어 응답을 평가함으로써, 교차 언어 지시어 따르기 쌍의 선호도 관계에 주석을 달았습니다. 주석이 달린 데이터는 다국어 DPO 미세 조정에 사용되어 영어에서 다른 언어로 선호도 지식 전이를 용이하게 합니다. Llama3 모델을 두 번 반복하여 미세 조정한 결과, X-AlpacaEval 리더보드에서 모든 훈련 언어에 걸쳐 승률이 평균 12.72% 향상되고 길이 제어 승률이 5.97% 증가했습니다. 이는 기존의 영어 정렬 모델을 활용하면 다국어 선호도 데이터에 대한 광범위한 필요성을 크게 줄이면서 효율적이고 효과적인 다국어 선호도 정렬이 가능함을 보여줍니다. 코드는 https://github.com/ZNLP/Implicit-Cross-Lingual-Rewarding 에서 확인할 수 있습니다.