Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Estimating LLM Consistency: A User Baseline vs Surrogate Metrics

Created by
  • Haebom
Category
Empty

저자

Xiaoyuan Wu, Weiran Lin, Omer Akgul, Lujo Bauer

개요

대규모 언어 모델(LLM)은 종종 환각 현상을 겪고 프롬프트 변화에 민감하여 일관성이 없거나 신뢰할 수 없는 텍스트를 생성하는 경향이 있다. 이러한 환각과 취약성을 완화하기 위해 LLM 응답의 일관성을 측정하는 방법이 제안되었는데, 이는 응답에 대한 모델의 확신 또는 재표본 추출 시 유사한 응답을 생성할 가능성을 의미한다. 기존 연구에서는 LLM 응답 일관성을 측정하기 위해 재표본 추출된 응답 풀 내에서 응답의 확률을 계산하거나, 내부 상태를 분석하거나, 응답의 로짓을 평가하는 방법이 사용되었다. 그러나 이러한 접근 방식이 LLM 응답의 일관성에 대한 사용자 인식과 얼마나 잘 일치하는지는 불분명했다. 이를 확인하기 위해, 본 연구에서는 사용자 연구($n=2,976$)를 수행하여 LLM 응답 일관성을 측정하는 현재 방법들이 일반적으로 인간의 LLM 일관성 인식과 잘 일치하지 않음을 보였다. 본 연구에서는 LLM 일관성을 추정하기 위한 로짓 기반 앙상블 방법을 제안하고, 이 방법이 LLM 일관성에 대한 인간 평가를 추정하는 데 있어 기존 최고의 성능을 가진 지표와 동일한 성능을 보임을 보여준다. 본 연구 결과는 인간 평가 없이 LLM 일관성을 추정하는 방법이 불완전하여, 자동화된 일관성 지표의 불완전성으로 인해 모델의 적절성을 오판하는 것을 방지하기 위해 인간 입력을 사용한 평가를 더 널리 사용할 필요가 있음을 시사한다.

시사점, 한계점

시사점:
현재 LLM 일관성 측정 방법은 인간의 인식과 잘 일치하지 않음.
로짓 기반 앙상블 방법은 인간 평가를 잘 추정하는 것으로 나타남.
자동화된 일관성 지표의 한계로 인해 인간 평가의 중요성이 강조됨.
한계점:
논문에서 제안하는 방법의 구체적인 성능 개선 정도에 대한 정량적 수치가 제시되지 않음.
LLM 일관성 측정에 영향을 미치는 다른 요인들에 대한 분석이 부족할 수 있음.
사용자 연구의 대상 및 맥락에 따른 일반화 가능성에 대한 추가적인 검토가 필요함.
👍