본 논문은 LLM을 평가자로 활용하는 LLM-as-a-Judge 패러다임에서 기존의 단일 지점 평가 방식의 한계를 극복하기 위해, LLM이 생성하는 판단 분포를 실제 인간의 판단 분포와 명시적으로 정렬하는 새로운 학습 프레임워크를 제안한다. KL divergence 기반의 분포 정렬 목표와 auxiliary cross-entropy regularization을 결합하여 학습 과정을 안정화하고, 제한된 인간 주석 데이터의 문제를 해결하기 위해 적대적 학습을 통합하여 모델의 견고성을 향상시킨다. 다양한 LLM 백본과 평가 작업에 대한 광범위한 실험을 통해 제안된 프레임워크가 기존의 closed-source LLM과 기존의 단일 지점 정렬 방법보다 정렬 품질, 평가 정확도 및 견고성이 크게 향상됨을 보여준다.
시사점, 한계점
•
시사점:
◦
LLM-as-a-Judge 패러다임에서 인간 평가의 다양성과 불확실성을 고려한 새로운 평가 방법 제시
◦
KL divergence와 적대적 학습을 활용하여 LLM의 평가 정확도와 견고성 향상
◦
기존 단일 지점 평가 방식보다 우수한 성능을 보이는 새로운 프레임워크 제시
•
한계점:
◦
제안된 프레임워크의 성능 향상은 특정 LLM 백본과 평가 작업에 대한 실험 결과에 기반하므로, 다른 환경에서의 일반화 성능은 추가 연구가 필요하다.
◦
인간 주석 데이터의 품질에 대한 의존성이 여전히 존재하며, 데이터 편향의 영향을 완전히 제거하지 못할 가능성이 있다.
◦
실험에서 사용된 데이터셋과 LLM 백본의 구체적인 정보가 부족하여 재현성에 대한 검토가 필요하다.