본 논문은 대규모 언어 모델(LLM)을 사용하여 심리 측정 도구의 내용 타당성을 평가하는 연구를 다룹니다. 특히, 빅 파이브 질문지(BFQ)와 빅 파이브 목록(BFI)에 초점을 맞춰, 인간 전문가 평가와 LLM을 비교하여 항목-구성개념 정합성의 정확성을 분석했습니다. 대학원 심리학생들은 내용 타당도 비율(CVR)을 사용하여 항목을 평가했고, 최첨단 LLM은 항목 임베딩을 분석하여 구성개념 매핑을 예측했습니다. 그 결과, 인간과 AI 접근 방식 모두 고유한 강점과 한계를 보였습니다. 인간 검증자는 행동적으로 풍부한 BFQ 항목 정렬에 뛰어났고, LLM은 언어적으로 간결한 BFI 항목에서 더 나은 성능을 보였습니다. LLM 성능은 훈련 전략에 따라 크게 영향을 받았으며, 어휘 관계에 맞춰 조정된 모델이 범용 LLM보다 성능이 우수했습니다. 본 연구는 인간 전문 지식과 AI 정밀도를 통합한 하이브리드 검증 시스템의 상호 보완적 잠재력을 강조하며, 심리 평가에서 LLM의 혁신적인 역할과 확장 가능하고 객관적이며 강력한 검사 개발 방법론을 제시합니다.