Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Refine-n-Judge: Curating High-Quality Preference Chains for LLM-Fine-Tuning

Created by
  • Haebom

저자

Derin Cayir, Renjie Tao, Rashi Rungta, Kai Sun, Sean Chen, Haidar Khan, Minseok Kim, Julia Reinspach, Yue Liu

개요

본 논문은 대규모 언어 모델(LLM)의 선호도 기반 미세 조정을 위한 데이터셋 품질 향상을 위한 자동 반복 접근 방식인 Refine-n-Judge를 제안합니다. Refine-n-Judge는 단일 LLM을 사용하여 데이터셋을 개선하고 그 개선 여부를 평가합니다. LLM은 응답을 개선하고 이전 응답보다 개선되었는지 평가하는 과정을 반복하며, LLM이 초기 응답을 선호할 때까지 반복합니다. 이를 통해 선호도 레이블이 지정된 질 향상된 응답 시퀀스를 생성하여 미세 조정에 활용합니다. Llama 3.1-8B 및 Llama 3.3-70B 모델을 사용한 실험 결과, 다양한 공개 데이터셋에서 Refine-n-Judge로 향상된 데이터셋으로 미세 조정된 모델이 기존 데이터셋으로 미세 조정된 모델보다 GPT-4의 평가에서 74% 이상 선호되었으며, AlpacaEval, AlpacaEval 2.0, MT-Bench에서 성능 향상을 보였습니다.

시사점, 한계점

시사점:
단일 LLM을 이용하여 인간 개입 없이 데이터셋 품질을 향상시키는 효율적인 방법을 제시합니다.
기존의 반복적 개선 방법보다 효과적이며 확장성이 뛰어납니다.
다양한 과제(코딩, 수학, 대화)와 데이터셋에서 성능 향상을 보였습니다.
고품질 데이터셋을 생성하여 LLM 성능 향상에 기여합니다.
한계점:
LLM의 성능에 의존적이며, LLM 자체의 한계가 결과에 영향을 미칠 수 있습니다.
사용된 LLM의 크기 및 종류에 따라 성능 차이가 발생할 수 있습니다.
Refine-n-Judge의 평가 기준이 LLM의 선호도에만 의존하기 때문에, 실제 성능과의 차이가 발생할 가능성이 있습니다.
특정 LLM에 대한 편향성이 존재할 수 있습니다.
👍