JudgeLM: Fine-tuned Large Language Models are Scalable Judges
Created by
Haebom
Category
Empty
저자
Lianghui Zhu, Xinggang Wang, Xinlong Wang
개요
본 논문은 개방형 시나리오에서 대규모 언어 모델(LLM)을 평가하는 어려움을 해결하기 위해, LLM을 확장 가능한 판정자로 미세 조정하는 JudgeLM을 제안합니다. 고성능 판정자를 미세 조정하기 위한 광범위하고 대규모의 고품질 데이터셋(작업 시드, LLM이 생성한 답변, GPT-4가 생성한 판단 포함)과 판정자 평가를 위한 새로운 벤치마크를 제시합니다. 7B, 13B, 33B 매개변수 규모의 JudgeLM을 훈련하고, 그 기능과 동작을 체계적으로 분석합니다. LLM을 판정자로 미세 조정하는 과정에서 발생하는 위치 편향, 지식 편향, 형식 편향 등의 주요 편향을 분석하고, 이를 해결하기 위해 swap augmentation, reference support, reference drop 등의 기법을 도입합니다. JudgeLM은 기존 PandaLM 벤치마크와 새롭게 제안된 벤치마크 모두에서 최첨단 판정 성능을 달성하며, 8개의 A100 GPU를 사용하여 5,000개의 샘플을 3분 만에 판정하는 높은 효율성을 보입니다. 또한, GPT-4와 90% 이상의 높은 일치율을 달성하여, 심지어 사람 간의 일치율을 능가하며, 단일 답변, 다중 모달 모델, 다중 답변, 멀티턴 채팅 등 다양한 평가에도 확장 가능성을 보여줍니다. 소스 코드는 https://github.com/baaivision/JudgeLM 에서 확인 가능합니다.