Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Quantifying Label-Induced Bias in Large Language Model Self- and Cross-Evaluations

Created by
  • Haebom

저자

Muskan Saraf, Sajjad Rezvani Boroujeni, Justin Beaudry, Hossein Abedi, Tom Bush

개요

본 연구는 ChatGPT, Gemini, Claude 세 가지 대규모 언어 모델(LLM)을 사용하여 자체 및 상호 평가 시 편향성을 조사했습니다. 각 모델이 작성한 블로그 게시물을 네 가지 조건(레이블 없음, 참 레이블, 두 가지 거짓 레이블 시나리오) 하에서 세 모델이 전체 선호도 투표와 일관성, 정보성, 간결성에 대한 품질 평가를 통해 평가했습니다. 결과적으로 모델의 이름("Claude", "Gemini")이 평가 결과에 큰 영향을 미치는 것으로 나타났습니다. "Claude" 레이블은 점수를 높이고 "Gemini" 레이블은 점수를 낮추는 경향이 있었으며, 거짓 레이블은 순위를 역전시키기도 했습니다. 이는 모델의 정체성 인식이 고차원적 판단과 세부적인 품질 평가에 큰 영향을 미칠 수 있음을 보여줍니다.

시사점, 한계점

시사점:
LLM의 자체 및 상호 평가에서 모델의 이름(정체성)이 평가 결과에 상당한 영향을 미칠 수 있음을 보여줍니다.
공정한 LLM 벤치마킹을 위해서는 익명 또는 다중 모델 평가 프로토콜이 필요함을 시사합니다.
LLM 평가 시, 모델의 정체성을 숨기는 블라인드 테스트의 중요성을 강조합니다.
모델의 자기 평가에 대한 신뢰성에 의문을 제기합니다.
한계점:
본 연구는 세 가지 특정 LLM에만 국한되어 일반화 가능성에 한계가 있습니다.
사용된 블로그 게시물의 주제나 스타일이 결과에 영향을 미쳤을 가능성이 있습니다.
더 다양한 평가 지표와 더 많은 모델을 포함한 추가 연구가 필요합니다.
👍