본 논문은 대규모 언어 모델(LLM) 조종 기법의 평가가 과제 특정 성능에만 초점을 맞추고, 조종된 표현이 인간 인지와 얼마나 잘 일치하는지 간과하는 점을 지적합니다. 확립된 삼자 유사성 판단 과제를 사용하여 크기 또는 종류에 기반한 개념 간의 유사성을 유연하게 판단하는 능력에 대해 조종된 LLM을 평가했습니다. 그 결과, 프롬프트 기반 조종 방법이 조종 정확도와 모델-인간 정합성 측면에서 다른 방법보다 우수한 것으로 나타났습니다. 또한 LLM은 '종류' 유사성에 치우쳐 있고 '크기' 정합에는 어려움을 겪는다는 것을 발견했습니다. 인간 인지에 기반한 이 평가 방식은 프롬프트 기반 조종의 효과에 대한 추가적인 지원을 제공하고, 조종 전 LLM의 특권적 표상 축을 보여줍니다.