FaithLM: Towards Faithful Explanations for Large Language Models
Created by
Haebom
Category
Empty
저자
Yu-Neng Chuang, Guanchu Wang, Chia-Yuan Chang, Ruixiang Tang, Shaochen Zhong, Fan Yang, Mengnan Du, Xuanting Cai, Vladimir Braverman, Xia Hu
FaithLM: LLM 설명의 충실도 향상을 위한 개입 기반 프레임워크
개요
대규모 언어 모델(LLM)은 자연어 설명을 생성하지만, 이러한 설명은 충실도가 부족하고 모델이 결정을 내리는 데 사용하는 증거를 신뢰성 있게 반영하지 못하는 경우가 많습니다. FaithLM은 토큰 마스킹이나 작업별 휴리스틱 없이 LLM 설명의 충실도를 평가하고 개선하는 모델 독립적인 프레임워크입니다. FaithLM은 개입 속성으로서 설명 충실도를 공식화합니다: 충실한 설명은 해당 내용에 반박이 있을 때 예측 변화를 일으켜야 합니다. 이론적 분석에 따르면, 결과적인 반대 힌트 점수는 충실도의 건전하고 식별적인 추정치입니다. 이 원리를 바탕으로 FaithLM은 측정된 점수를 최대화하기 위해 유도 프롬프트와 설명을 반복적으로 개선합니다. 3개의 다중 도메인 데이터 세트와 여러 LLM 백본에 대한 실험 결과, FaithLM이 일관되게 충실도를 증가시키고 강력한 자체 설명 기반보다 인간의 추론과 더 잘 일치하는 설명을 생성한다는 것을 보여줍니다. 이러한 결과는 개입 기반 평가와 반복적 최적화를 결합하는 것이 충실하고 신뢰할 수 있는 LLM 설명을 위한 원칙적인 방법임을 강조합니다.