본 논문은 대규모 언어 모델(LLM)의 내부 표상이 인간의 개념 범주화와 어떻게 다른지 정보 이론적 관점에서 분석한 연구이다. 인간은 다양한 사례를 추상적인 표상으로 매핑하여 의미를 유지하면서 지식을 압축하는 반면(예: 로빈과 까치는 모두 새), LLM은 통계적 압축에 치중하는 경향을 보인다는 것을 밝혔다. Rate-Distortion Theory와 Information Bottleneck principle을 활용하여 LLM의 토큰 임베딩을 인간 범주화 벤치마크와 비교 분석한 결과, LLM은 인간의 판단과 일치하는 광범위한 개념 범주를 형성하지만, 인간의 이해에 중요한 세부적인 의미적 차이를 포착하는 데 어려움을 겪는다는 것을 발견했다. 결론적으로, 현재의 AI와 인간 인지 구조 간의 중요한 차이점을 밝히고, 더욱 인간 중심적인 개념 표상을 가진 LLM을 향한 방향을 제시한다.