Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models

Created by
  • Haebom

저자

Wonjun Jeong, Dongseok Kim, Taegkeun Whangbo

개요

본 논문은 대규모 언어 모델(LLM)이 다지선다형 문제에서 선택지 위치나 레이블의 고유한 편향을 악용하여 진정한 이해 없이 높은 점수를 얻을 수 있다는 문제를 다룹니다. 이를 해결하기 위해, 데이터셋에 독립적인 방식으로 선택 편향을 측정하고 완화하는 평가 프레임워크인 SCOPE를 제시합니다. SCOPE는 의미 없는 널 프롬프트를 반복적으로 사용하여 각 모델의 고유한 위치 편향 분포를 추정하고, 역 편향 분포에 따라 답변 슬롯을 재분배하여 우연히 정답을 선택할 확률(lucky-rate)을 동일하게 만듭니다. 또한, 의미적으로 유사한 오답이 정답과 인접하게 배치되는 것을 방지하여 표면적인 근접성 단서에 기반한 거의 맞는 추측을 차단합니다. 여러 벤치마크 실험에서 SCOPE는 기존의 편향 제거 방법보다 안정적인 성능 향상을 보였으며, 정답에 대한 더 명확한 신뢰도 분포를 보여주었습니다. 따라서 이 프레임워크는 LLM 평가의 공정성과 신뢰성을 향상시키는 새로운 표준을 제공합니다.

시사점, 한계점

시사점:
LLM 평가의 공정성과 신뢰성을 향상시키는 새로운 평가 프레임워크 SCOPE 제시.
데이터셋에 독립적인 방식으로 선택 편향을 측정하고 완화.
기존 방법보다 안정적인 성능 향상 및 명확한 신뢰도 분포 제공.
LLM의 진정한 이해 능력 평가에 대한 새로운 기준 제시.
한계점:
SCOPE의 효과는 다양한 유형의 LLM과 다지선다형 문제에 대해 얼마나 일반화될 수 있는지 추가 연구 필요.
널 프롬프트의 설계 및 사용에 대한 세부적인 지침이 부족할 수 있음.
다른 유형의 편향(예: 레이블 편향)에 대한 고려가 부족할 수 있음.
계산 비용이 높을 수 있음.
👍