Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Catastrophic Paradox of Human Cognitive Frameworks in Large Language Model Evaluation: A Comprehensive Empirical Analysis of the CHC-LLM Incompatibility

Created by
  • Haebom
Category
Empty

저자

Mohan Reddy

개요

본 연구는 인간 심리 측정 프레임워크와 대규모 언어 모델(LLM) 평가 간의 비호환성에 대한 실증적 분석을 제시합니다. GPT-5, Claude Opus 4.1, Gemini 3 Pro Preview를 포함한 9개의 최첨단 모델을 지능의 Cattell-Horn-Carroll 이론을 사용하여 체계적으로 평가하여, 상호 기질적 인지 평가의 기반에 도전하는 역설을 확인했습니다. 결과는 85.0에서 121.4 범위의 평균 이상의 인간 IQ 점수를 달성하는 모델이 결정화된 지식 작업에서 0에 가까운 이진 정확도를 동시에 나타내며, 전체 판단자-이진 상관관계는 r = 0.175 (p = 0.001, n = 1800)임을 보여줍니다. 이러한 불일치는 결정화된 지능 영역에서 가장 강하게 나타났으며, 평가된 모든 모델이 완벽한 이진 정확도를 달성했지만 판단자 점수는 25%에서 62% 범위였습니다. 이는 유효한 측정 조건에서는 발생할 수 없는 결과입니다. 항목 반응 이론 모델링, 상호 벤더 판단자 검증 및 역설 심각도 지수화를 포함한 통계적 분석을 사용하여, 이러한 불일치가 생물학적 인지 아키텍처를 변환기 기반 시스템에 적용하는 데 있어서의 범주적 오류를 반영한다고 주장합니다. 그 의미는 방법론을 넘어 지능, 측정 및 AI 평가에서의 의인화된 편견에 대한 가정을 제기합니다. 또한, 인공 지능의 비인간적 본성을 인식하는 네이티브 머신 인지 평가 프레임워크를 개발할 것을 제안합니다.

시사점, 한계점

인간 심리 측정 프레임워크를 LLM 평가에 적용하는 것의 문제점을 제기하며, 두 시스템 간의 근본적인 차이점을 강조합니다.
결정화된 지식 영역에서 모델의 정확도와 판단자 점수 간의 불일치를 보여주는 결과는 기존 평가 방식의 한계를 드러냅니다.
AI 평가에서 지능, 측정, 의인화된 편견에 대한 새로운 관점을 제시하고, 네이티브 머신 인지 평가 프레임워크 개발을 제안합니다.
연구는 GPT-5, Claude Opus 4.1, Gemini 3 Pro Preview 등 특정 모델에 대한 분석으로 제한됩니다.
결정화된 지능과 같은 특정 인지 영역에 초점을 맞추어, 다른 인지 능력에 대한 일반화 가능성은 제한적일 수 있습니다.
제안된 네이티브 머신 인지 평가 프레임워크의 구체적인 구현 방안에 대한 설명은 부족합니다.
👍