본 논문은 저자원 언어의 대규모 언어 모델(LLM)의 텍스트 생성 능력 평가의 어려움을 해결하기 위해 MUG-Eval이라는 새로운 프레임워크를 제안합니다. 기존 벤치마크를 대화형 과제로 변환하고, 이 과제에서 LLM의 정확도를 측정하여 다국어 생성 능력을 평가합니다. 특히, 목표 언어로 효과적인 의사소통을 필요로 하는 대화형 과제를 설계하여 과제 성공률을 성공적인 대화 생성의 지표로 사용합니다. 이 방법은 대부분의 언어에서 제한적인 언어별 NLP 도구나 주석이 달린 데이터셋에 의존하지 않고, 고자원 언어를 제외하고는 평가 품질이 저하되는 LLM을 판단자로 사용하지 않는다는 장점을 제공합니다. 30개 언어(고, 중, 저자원 언어 포함)에서 8개의 LLM을 평가하여 MUG-Eval이 기존 벤치마크와 강한 상관관계($r$ > 0.75)를 보이며, 언어와 모델 간의 표준화된 비교를 가능하게 함을 보였습니다. 본 프레임워크는 수천 개의 언어로 확장 가능한 강력하고 자원 효율적인 다국어 생성 평가 솔루션을 제공합니다.