BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation
Created by
Haebom
저자
Alan Zhu, Parth Asawa, Jared Quincy Davis, Lingjiao Chen, Boris Hanin, Ion Stoica, Joseph E. Gonzalez, Matei Zaharia
개요
본 논문은 대규모 언어 모델(LLM) 학습을 위한 고품질 합성 데이터 생성의 어려움을 해결하기 위해, 소수의 예시만을 사용하는 새로운 방법인 Base-Refine (BARE)을 제안합니다. 기존 방법들이 수만 개의 예시를 필요로 하는 것과 달리, BARE는 기본 모델(base model)의 다양성과 지시어 미세 조정 모델(instruction-tuned model)의 품질 보장을 결합하여 소수의 예시(3개)만으로도 다양하고 고품질의 데이터셋을 생성합니다. 실험 결과, BARE로 생성된 데이터를 사용하여 미세 조정된 Llama 3.1 8B는 LiveCodeBench 작업에서 최첨단 모델과 유사한 성능을 달성했으며, Llama 3.2 1B는 GSM8K 작업에서 기존 instruction-model 기반 데이터 대비 101% 성능 향상을 보였고, Llama 3.1 8B는 최첨단 RAG 데이터 생성 방법인 RAFT 대비 18.4% 성능 향상을 보였습니다.