Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Trans-EnV: A Framework for Evaluating the Linguistic Robustness of LLMs Against English Varieties

Created by
  • Haebom

作者

Jiyoung Lee, Seungho Kim, Jieun Han, Jun-Min Lee, Kitaek Kim, Alice Oh, Edward Choi

概要

この論文は、大規模言語モデル(LLM)が標準的なアメリカ英語(SAE)で主に評価され、世界中の英語の変化の多様性を見落とすことを指摘しています。このような狭い焦点は、非標準の変化からパフォーマンスの低下につながり、世界中のユーザーに不平等な利益をもたらす可能性があるため、さまざまな非標準英語の変化に対するLLMの言語的堅牢性を広く評価することが重要であると強調しています。この目的のために、SAEデータセットをいくつかの英語のバリエーションに自動的に変換するフレームワークであるTrans-EnVを提示します。 Trans-EnVは、言語学の専門家の知識とLLMベースの変換を組み合わせて言語的妥当性と拡張性を保証し、6つのベンチマークデータセットを38の英語のバリエーションに変換し、7つの最新のLLMを評価します。研究は、非標準変異における最大46.3%の精度低下を示した。これは、様々な英語変異に対する包括的な言語的堅牢性評価の重要性を強調している。 Trans-EnVの各構成は、厳密な統計テストと第2言語習得分野の研究者との協議によって検証された。

Takeaways、Limitations

Takeaways:
LLMの言語的堅牢性評価には、様々な英語の変化を含めるべきであることを強調する。
Trans-EnVフレームワークは、自動化された方法でさまざまな英語のバリエーションの評価を実行できることを示唆しています。
実験の結果,非標準英語変異でLLMの性能低下が発生することを証明し,問題の重大性を示した。
公開されたコードとデータセットを通じて、その後の研究と発展のための基盤を提供します。
Limitations:
論文に具体的なLimitations言及はありません。
👍