大規模言語モデル(LLM)と検索/検索エンジンの統合は一般化されていますが、これらのシステムは信頼性を損なう致命的な脆弱性を持っています。本論文は、LLMの「カメレオン行動」、すなわち多段階会話で矛盾した質問に直面したときの立場を変える傾向を体系的に調査する。 12の議論的な領域をカバーする1,180の多段階会話にわたって、17,770の慎重に構成された問合せ応答のペアで構成される新しいカメレオンのベンチマークデータセットを通じて、最先端のシステムの根本的な欠陥を明らかにします。スタンスの不安定性を定量化するChameleon Score(0-1)と知識多様性を測定するSource Re-use Rate(0-1)の2つの理論的指標を導入した。 Llama-4-Maverick、GPT-4o-mini、Gemini-2.5-Flashの厳格な評価は、すべてのモデルが重大なカメレオン行動を示し(スコア0.391-0.511)、GPT-4o-miniが最悪のパフォーマンスを示す一貫した失敗を示しました。小さな温度間変動(0.004未満)は、効果がサンプリングの結果ではないことを示唆しています。分析の結果、Source Re-use Rateと信頼度(r = 0.627)とstanceの変化(r = 0.429)との強い相関が統計的に有意である(p <0.05)ことがわかりました。これは、限られた知識の多様性がモデルをクエリーフレーミングに病的に依存させることを示している。これらの結果は、一貫した立場を維持することが重要な医療、法、金融システムにLLMを展開する前に、包括的な一貫性評価が必要であることを強調しています。