생성 모델, 특히 대규모 언어 모델(LLM)의 정확성을 평가하는 원리적인 메커니즘은 제한적입니다. 본 논문은 컨포멀 예측 프레임워크를 활용하여 LLM 응답 세트를 구성하고, 틀린 응답(오류)이 포함될 확률을 사용자가 정의한 허용 수준으로 제한합니다. p-값을 기반으로 하는 기존 방법론은 p-해킹에 취약하지만, 본 연구는 e-값을 활용하여 부정확성을 측정하는 e-스코어를 생성 모델 출력에 추가합니다. e-스코어는 기존과 동일한 통계적 보장을 제공하는 동시에, 사용자가 e-스코어를 관찰한 후 적응적으로 허용 수준을 선택할 수 있도록 유연성을 제공합니다. 본 연구는 수학적 사실성 및 속성 제약 조건 만족과 같은 다양한 정확성 유형에 대한 LLM 출력 평가에서 e-스코어의 효능을 실험적으로 입증합니다.