每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

冗长权衡和规模对 LLM 自我解释忠实度的影响

Created by
  • Haebom

作者

诺亚·Y·西格尔、尼古拉斯·赫斯、玛丽亚·佩雷斯-奥尔蒂斯、瓦纳-玛丽亚·坎布鲁

大纲

我们分析了法学硕士(LLM)决策的解释是否准确反映了驱动这些决策的实际因素(保真度)。我们分析了来自13个类别的75个模型的反事实保真度,考察了简约性和全面性之间的平衡、评估相关保真度指标的方法以及操纵的可能性。我们提出了两个新的指标:相关反事实检验(phi-CCT,CCT的简化版本)和F-AUROC。结果表明,规模更大、性能更佳的模型在保真度指标上得分始终更高。

Takeaways,Limitations

Takeaways:
更大的 LLM 可以对该决定提供更准确的解释。
Phi-CCT和F-AUROC可作为评估保真度的新指标。
Limitations:
它可能仅限于特定模型和指标的分析。
它可能无法涵盖评估保真度所需的所有各个方面。
它可能无法提供对模型如何生成解释的基本理解。
👍