Sign In

E-Scores for (In)Correctness Assessment of Generative Model Outputs

Created by
  • Haebom
Category
Empty

저자

Guneet S. Dhillon, Javier Gonzalez, Teodora Pandeva, Alicia Curth

개요

생성 모델, 특히 대규모 언어 모델(LLM)의 정확성을 평가하는 원리적인 메커니즘은 제한적입니다. 본 논문은 컨포멀 예측 프레임워크를 활용하여 LLM 응답 세트를 구성하고, 틀린 응답(오류)이 포함될 확률을 사용자가 정의한 허용 수준으로 제한합니다. p-값을 기반으로 하는 기존 방법론은 p-해킹에 취약하지만, 본 연구는 e-값을 활용하여 부정확성을 측정하는 e-스코어를 생성 모델 출력에 추가합니다. e-스코어는 기존과 동일한 통계적 보장을 제공하는 동시에, 사용자가 e-스코어를 관찰한 후 적응적으로 허용 수준을 선택할 수 있도록 유연성을 제공합니다. 본 연구는 수학적 사실성 및 속성 제약 조건 만족과 같은 다양한 정확성 유형에 대한 LLM 출력 평가에서 e-스코어의 효능을 실험적으로 입증합니다.

시사점, 한계점

시사점:
LLM 출력의 정확성을 평가하기 위한 새로운 방법론 제시 (e-값 기반).
사후적으로 허용 수준을 선택할 수 있는 유연성 제공.
수학적 사실성 및 속성 제약 조건 만족과 같은 다양한 유형의 정확성 평가 가능.
한계점:
논문 내용 요약에 구체적인 한계점에 대한 언급 없음.
(구체적인 실험 환경, 모델, 데이터셋 등의 정보 부재).
👍