大規模な言語モデル(LLM)は、「アインシュタインはいつ生まれたのか」のような簡単な質問に答えることができますが、アインシュタインの人生について説明するときは、同じ日付を提供できない根本的な不一致を示しています。 LLMは単純なファクト質問の回答ベンチマークで印象的な精度を示していますが、単純なクエリと複雑なクエリの間の信頼性のギャップは正しく認識されず、信頼性が低下します。本研究では、SLAQ(Short-Long Form Alignment for Factual Question Answering)という評価フレームワークを導入し、LLMの回答を(a)独立した質問(short)と(b)複雑な質問に統合した場合(long)と比較する。 600個のクエリに対して16個のLLMを分析した結果、shortクエリとlongクエリに対する回答で体系的な不一致を発見した。さらに、位置依存的精度の損失と連続した正解または誤解が自己強化パターンを生成する運動効果を明らかにした。メカニズム分析によって、ソートされた事実が重複するモデルの内部を活性化し、メカニズム類似性に基づく指標が最大78%の精度で短い回答のソートを予測できることを確認しました。本研究は、問合せの複雑さによる事実的一貫性をLLMの信頼性の重要な側面として確立し、単純なファクト問合せに対する優れた性能が、より複雑な知識探求作業でも信頼性を意味するという暗黙的な仮定を持つ現在の評価方式を批判する。