Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CLEV: LLM-Based Evaluation Through Lightweight Efficient Voting for Free-Form Question-Answering

Created by
  • Haebom
Category
Empty

저자

Sher Badshah, Moamen Moustafa, Hassan Sajjad

개요

자유 형식 질문 답변(QA)의 평가는 다양성과 개방성으로 인해 여전히 어려운 과제입니다. 기존의 자동 평가지표는 의미적 동등성을 포착하거나 개방형 응답의 가변성을 수용하는 데 실패합니다. 대규모 언어 모델(LLM)을 평가자로 활용하는 것은 강력한 언어 이해 및 지시 따르기 능력으로 인해 유망한 대안이 됩니다. 제안된 CLEV(Consensus via Lightweight Efficient Voting)는 두 개의 주요 LLM을 심사위원으로 사용하고, 불일치 시에만 세 번째 심사위원을 호출합니다. 이 접근 방식은 불필요한 계산 요구 사항을 줄이면서 평가 신뢰성을 우선시합니다. 실험과 인간 평가를 통해 CLEV가 일관성 있고 확장 가능하며 리소스 효율적인 평가를 제공할 수 있음을 입증하여 자유 형식 QA에서 LLM을 평가하기 위한 강력한 프레임워크로 자리 잡았습니다.

시사점, 한계점

시사점:
CLEV는 자유 형식 QA에서 LLM의 평가에 대한 신뢰성, 확장성 및 리소스 효율성을 제공합니다.
세 심사위원 중 불일치 시에만 세 번째 심사위원을 사용하여 계산 비용을 절감합니다.
인간 평가를 포함한 실험을 통해 CLEV의 효과를 입증했습니다.
한계점:
논문에서 구체적인 한계점은 명시되지 않았습니다. (하지만, 모든 LLM 기반 평가 시스템이 가진 일반적인 한계, 즉 LLM의 편향성이나 환각 등은 잠재적인 한계가 될 수 있습니다.)
👍