Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Pointwise Scores: Decomposed Criteria-Based Evaluation of LLM Responses

Created by
  • Haebom

저자

Fangyi Yu, Nabeel Seedat, Dasha Herrmannova, Frank Schilder, Jonathan Richard Schwarz

DeCE: 분해된 LLM 평가 프레임워크

개요

법률 또는 의학 분야와 같이 중요한 분야에서 장문의 답변을 평가하는 것은 여전히 근본적인 과제로 남아 있습니다. BLEU 및 ROUGE와 같은 표준 메트릭은 의미적 정확도를 포착하지 못하며, 현재의 LLM 기반 평가자는 답변 품질의 미묘한 측면을 단일 차별화되지 않은 점수로 축소하는 경우가 많습니다. 본 논문에서는 정확성(사실 정확성 및 관련성)과 재현율(필요한 개념의 포괄 범위)을 분리하는 분해된 LLM 평가 프레임워크인 DeCE를 소개합니다. DeCE는 인스턴스별 기준을 금본위 답변 요구 사항에서 자동으로 추출합니다. DeCE는 모델에 구애받지 않고 도메인 일반적이며, 사전 정의된 분류법이나 수작업으로 제작된 루브릭이 필요하지 않습니다. DeCE를 법률 QA 작업에서 여러 관할 구역에 걸친 추론 및 인용 근거와 관련된 다양한 LLM을 평가하는 데 인스턴스화했습니다. DeCE는 전문가 판단과 기존 메트릭($r=0.12$), 점별 LLM 점수($r=0.35$), 최신 다차원 평가자($r=0.48$)에 비해 상당히 높은 상관 관계($r=0.78$)를 달성합니다. 또한 해석 가능한 상충 관계를 보여줍니다: 일반 모델은 재현율을 선호하는 반면, 전문 모델은 정확성을 선호합니다. 중요하게도, LLM이 생성한 기준의 11.95%만이 전문가의 수정이 필요했으며, 이는 DeCE의 확장성을 강조합니다. DeCE는 전문가 도메인에서 해석 가능하고 실행 가능한 LLM 평가 프레임워크를 제공합니다.

시사점, 한계점

시사점:
DeCE는 정확성과 재현율을 분리하여 LLM 평가의 정확성을 향상시킵니다.
전문가 판단과의 높은 상관 관계를 보이며, 기존 메트릭 및 다른 LLM 평가 방식보다 우수합니다.
모델 유형(일반 모델 vs. 전문 모델)에 따른 성능 차이를 해석 가능하게 보여줍니다.
전문가의 손길이 필요한 기준이 적어 확장성이 뛰어납니다.
한계점:
논문에 명시된 한계점은 없음.
👍