Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning
Created by
Haebom
저자
Derin Cayir, Renjie Tao, Rashi Rungta, Kai Sun, Sean Chen, Haidar Khan, Minseok Kim, Julia Reinspach, Yue Liu
개요
본 논문은 대규모 언어 모델(LLM)의 선호도 기반 미세 조정을 위한 데이터셋 품질 향상을 위한 자동 반복 접근 방식인 Refine-n-Judge를 제안합니다. Refine-n-Judge는 단일 LLM을 사용하여 데이터셋을 개선하고 그 개선 여부를 평가합니다. LLM은 응답을 개선하고 이전 응답보다 개선되었는지 평가하는 과정을 반복하며, LLM이 초기 응답을 선호할 때까지 반복합니다. 이를 통해 선호도 레이블이 지정된 질 향상된 응답 시퀀스를 생성하여 미세 조정에 활용합니다. Llama 3.1-8B 및 Llama 3.3-70B 모델을 사용한 실험 결과, 다양한 공개 데이터셋에서 Refine-n-Judge로 향상된 데이터셋으로 미세 조정된 모델이 기존 데이터셋으로 미세 조정된 모델보다 GPT-4의 평가에서 74% 이상 선호되었으며, AlpacaEval, AlpacaEval 2.0, MT-Bench에서 성능 향상을 보였습니다.
시사점, 한계점
•
시사점:
◦
단일 LLM을 이용하여 인간 개입 없이 데이터셋 품질을 향상시키는 효율적인 방법을 제시합니다.
◦
기존의 반복적 개선 방법보다 효과적이며 확장성이 뛰어납니다.
◦
다양한 과제(코딩, 수학, 대화)와 데이터셋에서 성능 향상을 보였습니다.
◦
고품질 데이터셋을 생성하여 LLM 성능 향상에 기여합니다.
•
한계점:
◦
LLM의 성능에 의존적이며, LLM 자체의 한계가 결과에 영향을 미칠 수 있습니다.
◦
사용된 LLM의 크기 및 종류에 따라 성능 차이가 발생할 수 있습니다.
◦
Refine-n-Judge의 평가 기준이 LLM의 선호도에만 의존하기 때문에, 실제 성능과의 차이가 발생할 가능성이 있습니다.