본 연구는 언어 모델의 후처리 정렬(alignment)이 인간 선호도에 맞춰 모델을 최적화하는 것이지, 실제 인간 행동을 모델링하는 것과는 다르다는 것을 보여줍니다. 120개의 기본-정렬 모델 쌍을 다중 라운드 전략 게임에서 10,000건 이상의 실제 인간 결정과 비교한 결과, 기본 모델이 정렬 모델보다 인간 선택 예측에서 거의 10배 더 우수함을 발견했습니다. 이는 모델이 인간 사용에 최적화될 때, 인간 행동을 그대로 반영하는 데는 한계가 있음을 시사합니다.