본 논문은 대규모 언어 모델(LLM)이 생성한 특허 청구항의 품질 평가를 위한 다차원 평가 프레임워크인 PatentScore를 제안한다. 기존의 자연어 생성(NLG) 평가 지표는 특허 문서의 구조적, 법적 특성에 적합하지 않다는 점을 고려하여, PatentScore는 청구항 분석을 위한 계층적 분해, 법적 및 기술적 표준에 기반한 도메인 특정 검증 패턴, 구조적, 의미론적, 법적 차원에 걸친 점수 매기기를 통합한다. GPT-4, Claude-3.5-Haiku, Gemini-1.5-flash 등 다양한 LLM로 생성된 400개의 청구항 1에 대한 평가 결과 전문가 평가와 높은 상관관계(Pearson correlation $r = 0.819$)를 보이며, 기존 NLG 지표보다 우수한 성능을 나타낸다.