본 논문은 영어와 같은 고자원 언어에서 뛰어난 성과를 거둔 대규모 언어 모델(LLM)의 성능을, 저자원 및 형태론적으로 복잡한 언어에서 평가합니다. 특히 Cantonese, 일본어, 터키어를 포함하는 새로운 다국어 벤치마크를 제시하고, GPT-4o, GPT-4, Claude 3.5 Sonnet, LLaMA 3.1, Mistral Large 2, LLaMA-2 Chat 13B, Mistral 7B Instruct 등 7개의 최첨단 LLM을 평가했습니다. 벤치마크는 개방형 질문 응답, 문서 요약, 영어-X 번역, 문화적 맥락의 대화 등 4가지 다양한 작업을 포함합니다. 모델 성능을 평가하기 위해 인간 평가(유창성, 사실 정확성, 문화적 적절성 평가)와 자동 지표(BLEU, ROUGE 등)를 결합했습니다.