본 논문은 대규모 언어 모델(LLM)의 효과적인 평가를 위해 계층적 프롬프트 분류 체계(HPT)를 제시한다. HPT는 인간의 인지 원리를 기반으로 하며, 다양한 작업의 인지적 요구 사항을 검토하여 LLM을 평가한다. 계층적 프롬프트 프레임워크(HPF)를 활용하여 인지적 요구 수준에 따라 5가지 고유한 프롬프트 전략을 계층적으로 구성하고, 계층적 프롬프트 지수(HPI)를 통해 작업의 복잡성과 LLM의 인지 능력을 평가한다. 다양한 데이터셋과 LLM을 사용한 실험 결과, HPF는 기준 성능 대비 2%~63%의 성능 향상을 보였으며, GSM8k가 가장 인지적으로 복잡한 작업으로 평균 HPI 3.20을 기록했다. HPT와 HPF의 구현은 공개되어 향후 연구와 재현성을 지원한다.