본 연구는 AI 평가자가 인간 평가자와 유사하게 B1 수준 영어 읽기 이해력 검사 문항의 내용 타당도를 평가하는지 여부를 조사하였다. 25개 문항의 객관식 검사를 개발하여 4명의 인간 평가자와 4명의 AI 평가자가 평가하였고, 인간 평가자와 AI 평가자의 점수 간에 통계적으로 유의미한 차이가 없었으며, 유사한 평가 경향을 보였다. 내용 타당도 비율(CVR)과 문항 내용 타당도 지수(I-CVI)를 계산하여 Wilcoxon 부호 순위 검정을 사용하여 분석한 결과, 통계적으로 유의미한 차이가 없었다. 일부 경우 AI 평가자가 인간 평가자를 대체할 수 있음을 시사하지만, 평가 기준 해석의 차이로 인한 특정 문항 평가의 차이가 발생할 수 있다는 점을 지적하였다. 평가 기준을 명확히 정의하고 언어적 명확성을 확보하는 것이 일관성 있는 평가에 기여할 수 있으며, AI 기술과 인간 전문가를 함께 활용하는 하이브리드 평가 시스템 개발을 제안하였다.