Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Likelihood-based Mitigation of Evaluation Bias in Large Language Models

Created by
  • Haebom
Category
Empty

저자

Masanari Oi, Masahiro Kaneko, Ryuto Koike, Mengsay Loem, Naoaki Okazaki

개요

대규모 언어 모델(LLM)은 자연어 생성 작업을 평가하는 자동화된 지표로 널리 사용되지만, 문장의 타당성을 측정하는 LLM의 가능성(likelihood)은 단어 순서나 문장 구조와 같은 피상적인 차이로 인해 달라질 수 있습니다. 따라서 LLM을 평가에 사용할 경우 likelihood bias가 존재할 수 있는데, 이는 likelihood가 높은 문장은 과대평가하고 낮은 문장은 과소평가할 수 있음을 의미합니다. 본 논문에서는 LLM 기반 평가자에서 likelihood bias의 존재와 영향을 조사하고, 이를 완화하는 방법을 제안합니다. 제안된 방법은 highly biased instances를 in-context learning을 위한 few-shot 예제로 활용합니다. Data-to-text 및 문법 오류 수정 작업 평가 실험을 통해 여러 LLM에서 likelihood bias가 나타나는 것을 확인했습니다. 또한 제안된 방법이 이 bias를 성공적으로 완화하고, 평가 성능(사람 점수와의 상관관계)을 유의미하게 향상시켰습니다.

시사점, 한계점

시사점:
LLM 기반 평가자는 likelihood bias를 가질 수 있으며, 이는 평가 결과의 왜곡을 초래할 수 있습니다.
제안된 방법은 likelihood bias를 효과적으로 완화하고 평가 성능을 향상시킬 수 있습니다.
few-shot learning을 활용한 bias 완화 방법은 다른 LLM 기반 평가에도 적용될 수 있습니다.
한계점:
실험은 data-to-text 및 문법 오류 수정 작업에 국한되어, 다른 자연어 생성 작업에 대한 일반화 가능성은 추가 연구가 필요합니다.
제안된 방법의 효과는 few-shot examples의 품질에 따라 달라질 수 있습니다.
다양한 LLM 모델에 대한 광범위한 평가가 필요합니다.
👍