Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language

Created by
  • Haebom

作者

青春ソング、慶慶ジョン、ウンスキム、ジホジン、ドンクワンキム、ジェイシン、アリスオ

概要

本論文は、低資源言語を含む多言語をサポートする大規模言語モデル(LLM)のテキスト生成能力を評価するための新しいフレームワークであるMUG-Evalを提案します。既存のベンチマークをインタラクティブな課題に変換し、その課題でLLMの精度を測定して、多言語生成能力を評価します。これらの対話型課題は、目標言語で効果的なコミュニケーションを必要とするように設計されており、課題の成功率を会話生成成功の指標として使用します。 MUG-Evalは、言語固有のNLPツールや注釈付きのデータセットに依存せず、LLMを評価者として使用しないため、低資源言語にも適用可能であるという利点があります。 30の言語(高、中、低資源言語を含む)にわたって8つのLLMを評価した結果、既存のベンチマークと高い相関関係($r$ > 0.75)を示し、言語とモデルとの標準化された比較を可能にします。このフレームワークは、数千の言語で拡張可能で強力でリソース効率の高い多言語生成評価ソリューションを提供します。

Takeaways、Limitations

Takeaways:
低資源言語を含む多言語LLMの生成能力を評価するための効率的で堅牢なフレームワークの提供。
既存のベンチマークとの高い相関関係により信頼性を確保。
言語とモデル間の標準化された比較可能。
何千もの言語に拡張可能。
言語固有のNLPツールと注釈データに対する依存性の低減
LLM を評価者として使用せず、高資源言語に偏らない評価可能。
Limitations:
課題成功率を会話生成成功の唯一の指標として使用する単純さ。他の側面(流暢さ、一貫性など)を考慮しないことがあります。
提示された30の言語と8つのLLM以外の他の言語またはモデルの一般化の可能性に関するさらなる研究が必要です。
対話型課題設計の主観性が評価結果に影響を与える可能性がある。
👍