본 연구는 인간 심리 측정 프레임워크와 대규모 언어 모델(LLM) 평가 간의 비호환성에 대한 실증적 분석을 제시합니다. GPT-5, Claude Opus 4.1, Gemini 3 Pro Preview를 포함한 9개의 최첨단 모델을 지능의 Cattell-Horn-Carroll 이론을 사용하여 체계적으로 평가하여, 상호 기질적 인지 평가의 기반에 도전하는 역설을 확인했습니다. 결과는 85.0에서 121.4 범위의 평균 이상의 인간 IQ 점수를 달성하는 모델이 결정화된 지식 작업에서 0에 가까운 이진 정확도를 동시에 나타내며, 전체 판단자-이진 상관관계는 r = 0.175 (p = 0.001, n = 1800)임을 보여줍니다. 이러한 불일치는 결정화된 지능 영역에서 가장 강하게 나타났으며, 평가된 모든 모델이 완벽한 이진 정확도를 달성했지만 판단자 점수는 25%에서 62% 범위였습니다. 이는 유효한 측정 조건에서는 발생할 수 없는 결과입니다. 항목 반응 이론 모델링, 상호 벤더 판단자 검증 및 역설 심각도 지수화를 포함한 통계적 분석을 사용하여, 이러한 불일치가 생물학적 인지 아키텍처를 변환기 기반 시스템에 적용하는 데 있어서의 범주적 오류를 반영한다고 주장합니다. 그 의미는 방법론을 넘어 지능, 측정 및 AI 평가에서의 의인화된 편견에 대한 가정을 제기합니다. 또한, 인공 지능의 비인간적 본성을 인식하는 네이티브 머신 인지 평가 프레임워크를 개발할 것을 제안합니다.