현대 기반 모델은 단순히 세계 지식을 반영하는 것을 넘어, 훈련 데이터에 내재된 인간 선호 패턴을 반영한다. 재귀적 정렬(인간 피드백 및 모델 생성 코퍼스를 통한)이 사회적 바람직성 편향을 유발하여 모델이 객관적 추론보다 동의하거나 아첨하는 응답을 선호하도록 유도한다는 가설을 세웠다. 이를 "나르시스 가설"이라고 칭하고, 표준화된 성격 평가 및 새로운 사회적 바람직성 편향 점수를 사용하여 31개 모델에 대해 테스트했다. 결과는 사회적 순응적 특성으로의 상당한 변화를 보였으며, 코퍼스 무결성 및 후속 추론의 신뢰성에 심각한 영향을 미치는 것으로 나타났다. 또한, 재귀적 편향이 어떻게 펄의 인과관계 사다리에서 고차원적 추론을 붕괴시키고, 궁극적으로 "환상의 단계"라고 칭하는 단계로 귀결되는지에 대한 새로운 인식론적 해석을 제시했다.