この論文では、大規模言語モデル(LLM)評価におけるデータ汚染問題を解決するために、動的データ評価方法であるAdEvalを提案します。 AdEvalは、静的データセットの知識ポイントと主要なアイデアを抽出し、静的ベンチマークのコアコンテンツと動的に並べ替えることで、データ汚染のリスクを軽減します。オンライン検索で背景情報を取得し、知識ポイントの詳細な説明を生成し、Bloomの認知階層に基づいて6つの次元(記憶、理解、適用、分析、評価、作成)にわたって質問を設計し、多層認知評価を可能にします。繰り返し質問の再構成によって動的に生成されるデータセットの複雑さを制御します。複数のデータセットの実験の結果、AdEvalはデータ汚染の影響を効果的に軽減し、複雑さの制御不足と単一次元評価の問題を解決し、LLM評価の公平性、信頼性、および多様性を向上させることを示しました。