Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Synthesize-on-Graph: Knowledgeable Synthetic Data Generation for Continue Pre-training of Large Language Models

Created by
  • Haebom

저자

Xuhui Jiang, Shengjie Ma, Chengjin Xu, Cehao Yang, Liyu Zhang, Jian Guo

개요

본 논문은 제한적이고 독점적인 소규모 전문 자료로부터 학습할 때 특히 데이터 효율성이 떨어지는 대규모 언어 모델(LLM)의 문제점을 해결하기 위해, 문서 간 지식 연관성을 통합하는 합성 데이터 생성 프레임워크인 Synthetic-on-Graph (SoG)를 제안합니다. SoG는 원본 자료에서 개체와 개념을 추출하여 문서 간 연관성을 나타내는 맥락 그래프를 구성하고, 그래프 워크 전략을 사용하여 지식 연관 샘플링을 수행합니다. 이를 통해 합성 데이터의 다양성과 일관성을 높여 모델이 복잡한 지식 구조를 학습하고 희귀 지식을 처리할 수 있도록 합니다. 또한, Chain-of-Thought (CoT)와 Contrastive Clarifying (CC)를 통합하여 합성 데이터의 질을 향상시켜 추론 과정과 판별력을 강화합니다. 실험 결과, SoG는 다단계 문서 Q&A 데이터셋에서 최첨단(SOTA) 방법을 능가하고, 독해 과제 데이터셋에서는 SOTA 방법과 비슷한 성능을 보이며, SoG의 더 나은 일반화 능력을 보여줍니다.

시사점, 한계점

시사점:
제한된 데이터 환경에서 LLM의 효율적인 지식 습득을 위한 실용적인 해결책 제시.
문서 간 지식 연관성을 고려한 합성 데이터 생성으로 데이터 다양성과 일관성 향상.
CoT와 CC 통합을 통한 합성 데이터 품질 향상 및 모델의 추론 능력 및 판별력 개선.
다단계 문서 Q&A 과제에서 SOTA 성능 달성.
독해 과제에서 SOTA와 비슷한 성능 달성 및 일반화 능력 향상.
한계점:
제안된 방법의 특정 데이터셋 및 과제에 대한 의존성 평가 필요.
다양한 유형의 지식 연관성에 대한 SoG의 일반화 성능 추가 검증 필요.
합성 데이터 생성 과정의 계산 비용 및 효율성에 대한 추가 분석 필요.
대규모 데이터셋에 대한 확장성 평가 필요.
👍