Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework
Created by
Haebom
Category
Empty
저자
Kaishuai Xu, Tiezheng Yu, Wenjun Hou, Yi Cheng, Liangyou Li, Xin Jiang, Lifeng Shang, Qun Liu, Wenjie Li
개요
본 논문은 대규모 언어 모델(LLM)의 자동 평가를 위해 기존의 미세 조정 방식의 한계를 극복하는 새로운 평가 프레임워크 ARJudge를 제안합니다. 기존 방법들은 사전 정의된 기준에 따른 텍스트 분석에 국한되어 새로운 지시사항에 대한 적응성이 떨어지고 정량적, 구조적 제약 조건 준수 평가에 불안정성을 보였습니다. ARJudge는 미세 조정된 Analyzer가 다각적 평가 분석을 생성하고, 미세 조정이 필요 없는 Refiner가 모든 분석을 통합 및 개선하여 최종 판단을 내리는 두 가지 구성 요소로 이루어져 있습니다. 평가 기준 생성 및 텍스트 기반, 코드 기반 분석 생성 작업을 통합한 Composite Analysis Corpus를 사용하여 Analyzer를 훈련합니다. 실험 결과 ARJudge는 기존의 미세 조정된 평가자보다 효과성과 강건성이 뛰어나며, 다각적 평가와 코드 기반 분석의 중요성을 보여줍니다.
시사점, 한계점
•
시사점:
◦
기존 LLM 평가 방식의 한계(적응성 부족, 정량/구조적 제약 준수 평가의 불안정성)를 극복하는 새로운 프레임워크 ARJudge 제시.
◦
다각적 평가 분석과 코드 기반 분석을 통합하여 LLM 평가 성능 향상.
◦
ARJudge의 효과성 및 강건성을 실험적으로 검증.
◦
미세 조정 없이 동작하는 Refiner를 통해 효율성 증대.
•
한계점:
◦
ARJudge의 성능은 Composite Analysis Corpus의 질에 의존적일 수 있음.