본 논문은 대규모 언어 모델(LLM)의 신뢰할 수 있는 응답 여부를 판단하고, 이를 활용하여 시스템의 정확도를 높이는 방법을 연구합니다. 특히, 고위험 상황에서 LLM의 응답 신뢰도를 파악하는 것이 중요하며, 신뢰할 수 없는 응답일 경우 다른 전문가에게 질문을 라우팅하거나 안전한 기본 동작으로 전환하는 것이 필요합니다. 논문에서는 LLM이 자신의 응답에 대한 신뢰도를 얼마나 정확하게 나타낼 수 있는지, 그리고 이러한 신뢰도 개념이 실제 성능 향상으로 이어질 수 있는지 연구합니다. 이를 위해 오류 기반 피드백을 활용한 자기 반성(Self-REF)이라는 경량 학습 전략을 제안합니다. Self-REF는 LLM에 신뢰도 토큰을 도입하여 신뢰도 점수를 추출하고, 기존의 신뢰도 표현 방식이나 토큰 확률 검사 방식보다 라우팅 및 거절 학습 작업에서 상당한 성능 향상을 보입니다.