Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Large Language Models Badly Generalize across Option Length, Problem Types, and Irrelevant Noun Replacements

Created by
  • Haebom

作者

Guangxiang Zhao, Saier Hu, Xiaoqi Jian, Jinzhu Wu, Yuhan Wu, Change Jia, Lin Sun, Xiangzheng Zhang

概要

本稿では、大規模言語モデル(LLM)の一般化能力を評価するための「一般化ストレステスト」を提案します。オプションの長さ、問題の種類、無関係な名詞置換などのマイナーで制御された変更を加えて、LLMの一般化能力を評価します。実験の結果、高いベンチマークスコアにもかかわらず、LLMはこれらのマイナーだが内容を保存する修正に直面したときに深刻な精度の低下と予期しない偏り(例えば、より長い誤解を好む)を示すことがわかりました。たとえば、Qwen 2.5 1.5BのMMLUスコアは、オプションの長さが変更されると60から89に上昇しますが、質問は変更されていない状態で89から36に低下します。 GPT-4でさえ、問題の種類が変わると25点の精度損失が発生し、3つの修正カテゴリすべてで6点減少します。これらの分析は、LLMが、形式、語彙の変化、および無関係なコンテンツの変化にわたって一般化される強力で抽象的な表現を形成するのではなく、表面的な手がかりに大きく依存していることを示唆しています。

Takeaways、Limitations

Takeaways:
LLMの高いベンチマークスコアが実際の一般化能力を反映していない可能性があることを示しています。
LLMは表面的な手がかりに依存して動作し、真の理解ではなくパターンマッチングに基づいていることを示唆しています。
LLMの一般化能力を評価するための新しい方法論である「一般化ストレステスト」を提示します。
LLM開発における一般化能力の向上の重要性を強調します。
Limitations:
提示された「一般化ストレステスト」の汎用性と拡張性のさらなる研究が必要である。
テストに使用される Perturbation の種類と強度が制限される場合があります。
特定のLLMとデータセットの結果であるため、他のLLMまたはデータセットに一般化するために注意が必要です。
👍