Not All Documents Are What You Need for Extracting Instruction Tuning Data
Created by
Haebom
저자
Chi Zhang, Huaping Zhong, Hongtao Li, Chengliang Chai, Jiawei Hong, Yuhao Deng, Jiacheng Wang, Tian Tan, Yizhou Yan, Jiantao Qiu, Ye Yuan, Guoren Wang, Conghui He, Lei Cao
개요
본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위한 지시어 튜닝(Instruction Tuning)에서 고품질 훈련 데이터 의존성 문제를 해결하기 위해 웹 코퍼스에서 다양하고 풍부한 지식을 포함하는 지시어 튜닝 데이터를 추출하는 EQUAL이라는 프레임워크를 제안합니다. 기존의 LLM을 이용한 지시어 데이터 합성 방식의 한계(다양성 부족, 입력 시드와 유사성)를 극복하기 위해, EQUAL은 문서 군집화와 다중 무장 밴딧 전략을 활용하여 계산 비용을 줄이면서 고품질 QA 쌍을 효율적으로 추출합니다. AutoMathText와 StackOverflow 데이터셋을 이용한 실험 결과, EQUAL은 기존 방식 대비 5~10배의 계산 비용 절감과 LLaMA-3.1-8B 및 Mistral-7B 모델에서 2.5%의 정확도 향상을 달성했습니다.
시사점, 한계점
•
시사점:
◦
웹 코퍼스를 활용하여 대규모 언어 모델의 지시어 튜닝을 위한 고품질 데이터를 효율적으로 확보할 수 있는 새로운 방법 제시.