본 논문은 대규모 언어 모델(LLM)의 코드 생성 능력 평가를 위한 새로운 프레임워크인 TaskEval을 제시합니다. TaskEval은 다양한 프롬프트와 항목 반응 이론(IRT)을 활용하여 LLM의 능력과 과제 특성을 효율적으로 평가합니다. 기존 벤치마크 평가의 한계점인 과제 난이도 고려 부족 및 단일 프롬프트 사용 문제를 해결하고자, HumanEval+와 ClassEval 벤치마크, 5개의 코드 생성 LLM을 사용하여 TaskEval의 성능을 검증합니다. 주제 분석을 통해 각 벤치마크 내 과제의 주제를 도출하고, LLM이 사용하는 프로그래밍 구성 요소와 과제 난이도 간의 상관관계를 분석합니다. 나아가, 인간 평가자와 LLM 간의 과제 난이도 평가 비교를 수행하여 LLM 평가의 개선 방향을 제시합니다.