대규모 언어 모델(LLM)의 지능을 평가하기 위해 ARC, Raven-inspired test, Blackbird Task와 같은 벤치마크가 널리 사용되지만, 지능의 개념은 모호하며, 실제적인 과제(질의 응답, 요약, 코딩)에서의 성능을 예측하지 못한다. 본 논문은 지능 중심 평가가 아닌, 일반성에 기반한 평가가 필요하다는 관점을 제시한다. 일반성, 안정성, 현실성을 지능 중심 평가의 세 가지 가정으로 식별하고, 개념적 및 형식적 분석을 통해 일반성만이 개념적 및 경험적 검토를 견딜 수 있음을 보여준다. 일반성은 다중 작업 학습 문제로 이해되며, 측정 가능한 성능 폭과 신뢰도와 평가를 직접 연결한다.