본 논문은 다국어 오픈 엔드 생성(사용자 질의와 다른 언어로 응답 생성)을 위한 새로운 벤치마크인 XL-AlpacaEval을 소개하고, 고품질 합성 데이터 생성 방법인 XL-Instruct를 제안합니다. XL-Instruct로 생성된 8,000개의 instruction으로 미세 조정한 결과, GPT-4o-Mini에 대한 승률이 7.4%에서 21.5%로 증가하고 여러 세분화된 품질 지표가 향상되었습니다. 또한 XL-Instruct으로 미세 조정된 모델은 영어 전용 및 다국어 생성 작업에 강력한 제로샷 전이 성능을 보였습니다. 논문은 향후 다국어 LLM의 학습 후 과정에 XL-Instruct를 통합할 것을 강력히 권고하며, XL-Instruct 및 XL-AlpacaEval 데이터셋을 공개적으로 배포할 예정입니다.