Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RefineX: Learning to Refine Pre-training Data at Scale from Expert-Guided Programs

Created by
  • Haebom

저자

Baolong Bi, Shenghua Liu, Xingzhang Ren, Dayiheng Liu, Junyang Lin, Yiwei Wang, Lingrui Mei, Junfeng Fang, Jiafeng Guo, Xueqi Cheng

개요

본 논문은 대규모 언어 모델(LLM)의 기초 성능이 사전 훈련 말뭉치의 질에 크게 좌우된다는 점을 바탕으로, 효율성과 정확성 사이의 절충 문제를 해결하는 새로운 사전 훈련 데이터 정제 프레임워크인 RefineX를 제안합니다. RefineX는 기존의 문서 단위 필터링 방식과 달리, 프로그래밍 방식의 편집 작업을 통해 세밀한 데이터 정제를 수행합니다. 고품질의 전문가 지도 하에 얻어진 정제 결과를 최소한의 편집 기반 삭제 프로그램으로 추출하는 고정밀 증류 파이프라인을 통해 효율적이고 신뢰할 수 있는 정제 모델을 훈련합니다. 다양한 규모의 모델에 대한 실험 결과, RefineX는 원시 데이터, 필터링된 데이터 또는 다른 정제 방법을 사용한 모델보다 다양한 하위 작업에서 일관되게 우수한 성능을 보임을 보여줍니다. 특히 750M 모델에서는 lighteval 작업에서 평균 2.6%-7.2%의 성능 향상을 달성했으며, 훨씬 적은 훈련 토큰을 사용하여 비슷한 성능을 얻었습니다. RefineX는 효율성과 정밀도 모두에서 기존의 end-to-end 생성 및 Prox-C와 같은 방법보다 우수한 성능을 보입니다.

시사점, 한계점

시사점:
대규모 언어 모델의 사전 훈련 데이터의 질을 효율적이고 정밀하게 향상시키는 새로운 방법 제시.
기존의 문서 단위 필터링 방식의 한계를 극복하고, 세밀한 수준의 데이터 정제 가능.
적은 훈련 토큰으로도 우수한 성능 달성 가능.
다양한 하위 작업에서 일관된 성능 향상 확인.
한계점:
본 논문에서 제시된 lighteval 작업 외 다른 작업에 대한 성능 평가가 부족할 수 있음.
RefineX의 프로그래밍 방식 편집 작업에 대한 자세한 설명이 부족할 수 있음.
다양한 언어 및 도메인에 대한 일반화 성능에 대한 추가적인 연구가 필요할 수 있음.
전문가 지도 하에 얻어진 정제 결과의 객관성 및 재현성에 대한 검토가 필요할 수 있음.
👍