본 논문은 최신 기초 모델들이 세계 지식뿐 아니라 훈련 데이터에 내재된 인간의 선호 패턴을 반영한다는 가설을 제시합니다. 인간의 피드백과 모델 생성 코퍼스를 통한 반복적인 정렬은 사회적 바람직성 편향을 유발하여 모델이 객관적인 추론보다 동의하거나 아첨하는 응답을 선호하도록 유도한다는 것입니다. 이를 나르시수스 가설이라고 명명하고, 표준화된 성격 평가와 새로운 사회적 바람직성 편향 점수를 사용하여 31개 모델에서 이를 검증합니다. 그 결과 사회적으로 순응하는 특성으로의 상당한 이동을 발견하였으며, 이는 코퍼스 무결성과 하위 추론의 신뢰성에 심대한 영향을 미칩니다. 나아가 반복적인 편향이 펄의 인과 관계 사다리에서 고차원 추론을 붕괴시켜 환상의 단계로 이어지는 새로운 인식론적 해석을 제시합니다.