본 논문은 대규모 언어 모델(LLM)의 인간 인지와의 정합성을 측정하기 위한 새로운 방법인 튜링 표상 유사성 분석(Turing RSA)을 제시합니다. Turing RSA는 쌍별 유사성 평가를 사용하여 AI와 인간 간의 정합성을 정량화합니다. 본 연구는 텍스트와 이미지 양식에서의 의미적 정합성을 측정하여 다양한 LLM 및 VLM의 유사성 판단이 그룹 및 개인 수준에서 인간 반응과 얼마나 일치하는지 평가했습니다. 실험 결과, GPT-4o가 다른 모델들보다 인간의 성과와 가장 강한 정합성을 보였으며, 특히 이미지 처리보다는 텍스트 처리 기능을 활용할 때 더욱 그러했습니다. 하지만 어떤 모델도 인간 참가자 간의 개인차를 충분히 포착하지 못했습니다. Turing RSA는 다양한 양식(단어, 문장, 이미지)에서 LLM이 지식을 어떻게 인코딩하는지 이해하고 인간 인지와의 표상 정합성을 조사하는 데 유용함을 보여줍니다.