本論文は、低資源言語を含む多言語をサポートする大規模言語モデル(LLM)のテキスト生成能力を評価するための新しいフレームワークであるMUG-Evalを提案します。既存のベンチマークをインタラクティブな課題に変換し、その課題でLLMの精度を測定して、多言語生成能力を評価します。これらの対話型課題は、目標言語で効果的なコミュニケーションを必要とするように設計されており、課題の成功率を会話生成成功の指標として使用します。 MUG-Evalは、言語固有のNLPツールや注釈付きのデータセットに依存せず、LLMを評価者として使用しないため、低資源言語にも適用可能であるという利点があります。 30の言語(高、中、低資源言語を含む)にわたって8つのLLMを評価した結果、既存のベンチマークと高い相関関係($r$ > 0.75)を示し、言語とモデルとの標準化された比較を可能にします。このフレームワークは、数千の言語で拡張可能で強力でリソース効率の高い多言語生成評価ソリューションを提供します。