每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

恢复对齐大型语言模型的校准:一种校准感知的微调方法

Created by
  • Haebom

作者

肖建聪、侯博建、王占良、金若辰、龙琪、苏伟杰、沉力

大纲

本文研究了偏好对齐过程中出现的校准问题,这是大规模语言模型 (LLM) 成功的关键技术。具体而言,我们分析了偏好对齐导致模型过度自信和校准不准确的原因,并提出了一种解决这些问题的方法。具体而言,我们提出了一种通过基于领域知识的微调、校准感知微调以及基于 EM 算法的 ECE 正则化来保持模型性能并减少校准误差的方法。

Takeaways, Limitations

Takeaways:
我们揭示了偏好排序过程中出现的校准问题的原因(偏好崩溃也会影响校准)。
为了解决校准问题,提出了各种方法,包括基于领域知识的微调、校准感知微调和 ECE 正则化。
区分校准模型和不可校准模型,并针对每种情况提出解决方案。
Limitations:
如果继续微调模型以提高其性能,模型可能会进入未校准状态。
需要进一步验证以确保基于 EM 算法的 ECE 正则化在所有情况下都能提供完美的解决方案。
需要进一步研究来确定所提出的方法的普遍性及其对其他 LLM 架构的适用性。
👍