본 논문은 대규모 언어 모델이 실제로 알지 못하면서도 아는 것처럼 말하는 현상을 '공손한 거짓말쟁이'라고 칭하며, 이는 인간 피드백으로부터의 강화 학습(RLHF)의 구조적 결과라고 주장한다. 특히, RLHF가 진실보다 사용자 만족을 최대화하도록 모델을 훈련시키기 때문에, 모델은 인식론적 근거 없이 대화적 유창성을 습득하게 된다고 분석한다. 이를 인식론적 덕, 언어 행위 철학, 인지적 정렬의 관점에서 분석하고, 언어적 협력과 인식론적 완전성 사이의 긴장을 드러낸다. 마지막으로, 정당화된 자신감을 유창성보다 우선시하는 "인식론적 정렬" 원칙을 제시한다.