Sign In

An Empirical Analysis of Uncertainty in Large Language Model Evaluations

Created by
  • Haebom
Category
Empty

저자

Qiujie Xie, Qingqiu Li, Zhuohao Yu, Yuejie Zhang, Yue Zhang, Linyi Yang

개요

본 논문은 LLM(대규모 언어 모델) 평가자로서의 LLM(LLM-as-a-Judge)의 새로운 패러다임에 대한 불확실성 문제를 다룹니다. 기존 연구가 주로 LLM 평가자의 정렬(alignment) 및 편향(bias)에 집중한 반면, 본 논문은 LLM 평가자의 안정성(stability), 즉 불확실성에 초점을 맞춥니다. 9개의 널리 사용되는 LLM 평가자를 대상으로 2가지 평가 설정에서 광범위한 실험을 수행하여 모델 기반 LLM 평가의 불확실성을 조사합니다. 모델 계열과 크기에 따라 LLM 평가자의 불확실성이 다르게 나타나는 것을 확인하고, 추론 또는 사후 학습 중 특수 프롬프팅 전략을 사용하면 평가 불확실성을 어느 정도 완화할 수 있음을 발견합니다. 또한, 불확실성을 활용하여 OOD(Out-Of-Distribution) 데이터에서 LLM의 신뢰성과 탐지 능력을 향상시키고, 사람이 주석을 단 미세 조정 세트를 사용하여 불확실성 인식 LLM 평가자 ConfiLM을 미세 조정합니다. 2024 올림픽에서 수동으로 설계된 테스트 세트에서 ConfiLM의 OOD 평가 능력을 평가한 결과, 미세 조정 단계에서 불확실성을 추가 정보로 통합하면 OOD 시나리오에서 모델의 평가 성능이 크게 향상됨을 보여줍니다. 코드와 데이터는 https://github.com/hasakiXie123/LLM-Evaluator-Uncertainty 에서 공개됩니다.

시사점, 한계점

시사점:
LLM 평가자의 불확실성 문제를 체계적으로 분석하고, 그 정도를 모델 계열 및 크기에 따라 정량화했습니다.
특수 프롬프팅 전략을 통해 LLM 평가자의 불확실성을 완화할 수 있는 방법을 제시했습니다.
불확실성 정보를 활용하여 OOD 데이터에 대한 LLM 평가 성능을 향상시키는 ConfiLM 모델을 제안하고 그 효과를 실험적으로 검증했습니다.
LLM 평가의 신뢰성 향상을 위한 새로운 방향을 제시했습니다.
한계점:
사용된 LLM 평가자와 데이터셋의 종류가 제한적일 수 있습니다. 더 다양한 LLM 평가자와 데이터셋을 사용한 추가 연구가 필요합니다.
ConfiLM의 성능 향상이 특정 데이터셋과 과제에 국한될 가능성이 있습니다. 범용성을 높이기 위한 추가 연구가 필요합니다.
사람이 주석을 단 미세 조정 세트의 크기와 품질이 ConfiLM의 성능에 영향을 미칠 수 있습니다. 더 큰 규모의 고품질 데이터셋을 사용한 연구가 필요합니다.
👍