Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

Created by
  • Haebom

저자

Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson

개요

본 논문은 언어 모델(LM)의 불확실성 정량화(UQ) 평가에서의 편향 문제를 다룬다. 기존 UQ 평가는 AUROC와 같은 지표를 사용하여 UQ 방법(예: 음수 시퀀스 확률)과 정확성 함수(예: ROUGE-L) 간의 상관관계를 평가하지만, UQ 방법과 정확성 함수 모두 동일한 요소(예: 길이)에 의해 편향될 경우(상호 편향), 평가 결과가 왜곡될 수 있음을 보였다. 본 논문은 이러한 상호 편향이 AUROC 순위를 비확률적으로 왜곡하여 벤치마크의 무결성을 저해함을 이론적으로 증명하고, 4개의 데이터셋, 4개의 모델, 8개의 UQ 방법에 걸쳐 7개의 정확성 함수를 실험적으로 검증하여 이를 확인하였다. 특히, 정확성 함수의 길이 편향이 UQ 방법의 길이 편향과 상호 작용하여 UQ 평가를 왜곡하는 현상을 밝히고, LM-as-a-judge 방법이 길이 편향이 가장 적은 방법으로 나타났음을 제시한다.

시사점, 한계점

시사점:
언어 모델의 UQ 평가에서 상호 편향 문제의 심각성을 밝힘.
AUROC와 같은 기존 지표의 한계를 지적하고, 더 공정한 평가 방법의 필요성 제기.
LM-as-a-judge 방법이 상대적으로 공정한 UQ 평가에 유용할 수 있음을 제시.
UQ 방법 및 정확성 함수의 길이 편향을 고려한 평가 전략 수립 필요성 제시.
한계점:
분석에 사용된 데이터셋, 모델, UQ 방법, 정확성 함수의 종류가 제한적일 수 있음.
길이 편향 외 다른 유형의 상호 편향에 대한 분석이 부족할 수 있음.
LM-as-a-judge 방법의 일반화 가능성에 대한 추가 연구 필요.
👍