Sign In

Estimating LLM Consistency: A User Baseline vs Surrogate Metrics

Created by
  • Haebom
Category
Empty

저자

Xiaoyuan Wu, Weiran Lin, Omer Akgul, Lujo Bauer

개요

대규모 언어 모델(LLM)은 환각 현상과 프롬프트 변동에 취약하여 일관성이 없거나 신뢰할 수 없는 텍스트를 생성하는 경향이 있다. 본 연구에서는 LLM의 일관성을 측정하는 다양한 방법론이 인간의 인식과 얼마나 일치하는지 평가하기 위해 사용자 연구(n=2,976)를 수행했다. 기존의 LLM 일관성 측정 방법이 인간의 인식과 잘 일치하지 않음을 확인하고, 로짓 기반 앙상블 방법을 제안하여 인간 평가와의 일치도를 높였다. 연구 결과는 자동화된 일관성 측정 지표의 불완전성으로 인해, 인간 평가를 광범위하게 활용하여 모델의 적절성을 정확하게 판단해야 함을 시사한다.

시사점, 한계점

시사점:
기존 LLM 일관성 측정 방법은 인간의 인식과 일치하지 않는 경우가 많음.
로짓 기반 앙상블 방법은 인간 평가와의 일치도를 개선함.
자동화된 일관성 측정 지표의 불완전성으로 인해 인간 평가의 중요성이 강조됨.
한계점:
연구에 사용된 LLM 모델, 데이터셋, 프롬프트의 구체적인 내용은 언급되지 않음.
로짓 기반 앙상블 방법의 구체적인 구현 방식에 대한 설명이 부족함.
제안된 방법이 다른 LLM 모델 및 다양한 작업에 대해 일반화될 수 있는지에 대한 추가 연구가 필요함.
👍