법률 또는 의학 분야와 같이 중요한 분야에서 장문의 답변을 평가하는 것은 여전히 근본적인 과제로 남아 있습니다. BLEU 및 ROUGE와 같은 표준 메트릭은 의미적 정확도를 포착하지 못하며, 현재의 LLM 기반 평가자는 답변 품질의 미묘한 측면을 단일 차별화되지 않은 점수로 축소하는 경우가 많습니다. 본 논문에서는 정확성(사실 정확성 및 관련성)과 재현율(필요한 개념의 포괄 범위)을 분리하는 분해된 LLM 평가 프레임워크인 DeCE를 소개합니다. DeCE는 인스턴스별 기준을 금본위 답변 요구 사항에서 자동으로 추출합니다. DeCE는 모델에 구애받지 않고 도메인 일반적이며, 사전 정의된 분류법이나 수작업으로 제작된 루브릭이 필요하지 않습니다. DeCE를 법률 QA 작업에서 여러 관할 구역에 걸친 추론 및 인용 근거와 관련된 다양한 LLM을 평가하는 데 인스턴스화했습니다. DeCE는 전문가 판단과 기존 메트릭($r=0.12$), 점별 LLM 점수($r=0.35$), 최신 다차원 평가자($r=0.48$)에 비해 상당히 높은 상관 관계($r=0.78$)를 달성합니다. 또한 해석 가능한 상충 관계를 보여줍니다: 일반 모델은 재현율을 선호하는 반면, 전문 모델은 정확성을 선호합니다. 중요하게도, LLM이 생성한 기준의 11.95%만이 전문가의 수정이 필요했으며, 이는 DeCE의 확장성을 강조합니다. DeCE는 전문가 도메인에서 해석 가능하고 실행 가능한 LLM 평가 프레임워크를 제공합니다.