大規模言語モデル(LLM)の活用が増加するにつれて、モデルの知識不足を反映する認識論的不確実性を正確に評価することが重要になりました。しかし、複数の有効な回答から生じる偶発的な不確実性のため、これらの不確実性を定量化することは困難です。この研究は、視覚的質問応答(VQA)の課題でプロンプトが導入した偏りを軽減することがGPT-4oの不確実性の定量化を改善することを発見しました。さらに、モデル信頼性が低いときにLLMが入力情報をコピーする傾向に基づいて、GPT-4oおよびQwen2-VLのさまざまな無偏向信頼性レベルでこれらのプロンプト偏向が測定された認識論的および偶発的な不確実性に与える影響を分析しました。