本稿では、大規模言語モデル(LLM)の現実的な知識の堅牢性を評価する新しい指標である事実的堅牢性スコア(FRS)を提案します。従来の評価方法は主にパフォーマンスベースの指標に焦点を当て、プロンプトの変化による外部影響に焦点を当てていますが、この論文では、トークン分布エントロピーと温度スケーリング感度を分析して、生成プロセス自体でリアルな堅牢性を測定する原則的なアプローチを紹介します。 5つのLLMと3つの閉鎖型クエリ応答データセット(SQuAD、TriviaQA、HotpotQA)を使用した実験により、モデルサイズによって実際の堅牢性が大きく異なり(小型モデル0.76、大型モデル0.93)、不確実性が増加するにつれて精度が約60%減少します。これにより、エントロピーと温度スケーリングが現実的な精度に与える影響を分析し、将来的により堅牢な知識の維持と検索機能を備えたモデル開発の基盤を築きます。