Sign In

Teaching LLMs to Abstain via Fine-Grained Semantic Confidence Reward

Created by
  • Haebom
Category
Empty

저자

Hao An, Yang Xu

개요

대규모 언어 모델(LLM)의 환각 현상을 완화하는 것은 신뢰할 수 있는 배포에 매우 중요합니다. 기존 방법은 LLM을 미세 조정하여 지식 범위를 벗어나는 질문에 답하지 않도록 합니다. 그러나 이러한 방법은 종종 전체적인 신뢰도나 여러 샘플 답변에 대한 불확실성 점수와 같이 거친 신호를 사용하여 LLM이 답을 거부하도록 유도하며, 이는 모델 자체 지식 경계에 대한 부정확한 인식을 초래할 수 있습니다. 이에, 우리는 샘플별 신뢰도를 통해 LLM이 답을 거부하도록 유도하는 새로운 강화 학습 프레임워크인 $\textbf{\underline{Fi}ne-grained \underline{S}emantic \underline{Co}nfidence \underline{Re}ward (\Ours)}$를 제안합니다. 구체적으로, 우리의 방법은 여러 후보 답변을 샘플링하고 의미 클러스터링을 수행한 다음, LLM이 높은 신뢰도 클러스터 내의 답변은 유지하고 낮은 신뢰도 클러스터 내의 답변은 버리도록 훈련하여 정확한 사후 거부를 촉진합니다. 또한, 우리는 거부 미세 조정 작업의 신뢰성을 보다 포괄적으로 평가하기 위한 새로운 메트릭을 제안합니다. 우리의 방법은 도메인 내 및 분포 외부 벤치마크 모두에서 신뢰성을 크게 향상시킵니다.

시사점, 한계점

$\textbf{\underline{Fi}ne-grained \underline{S}emantic \underline{Co}nfidence \underline{Re}ward}$ (OurS)라는 새로운 강화 학습 프레임워크를 제안하여 LLM의 환각 완화.
샘플별 신뢰도를 기반으로 LLM이 답을 거부하도록 유도하여 정확한 사후 거부 촉진.
의미 클러스터링을 활용하여 후보 답변을 분류하고 신뢰도 기반으로 답변 유지 및 폐기.
거부 미세 조정 작업의 신뢰성을 평가하기 위한 새로운 메트릭 제안.
도메인 내 및 분포 외부 벤치마크 모두에서 신뢰성 향상.
논문 자체 내 한계점에 대한 언급은 없음.
👍