Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GraphGen: Enhancing Supervised Fine-Tuning for LLMs with Knowledge-Driven Synthetic Data Generation

Created by
  • Haebom

저자

Zihong Chen, Wanli Jiang, Jinzhe Li, Zhonghang Yuan, Huanjun Kong, Wanli Ouyang, Nanqing Dong

개요

본 논문은 대규모 언어 모델(LLM)의 파인튜닝에 필요한 고품질의 지도 학습 데이터 확보의 어려움을 해결하기 위해, 지식 그래프를 활용한 합성 데이터 생성 프레임워크인 GraphGen을 제시합니다. GraphGen은 원본 텍스트로부터 세분화된 지식 그래프를 구축하고, 예상 보정 오차(expected calibration error)를 사용하여 LLM의 지식 격차를 파악하여 고부가가치 장기간 지식을 우선적으로 QA 쌍을 생성합니다. 또한 다중 홉 이웃 샘플링을 통해 복잡한 관계 정보를 포착하고, 스타일 제어 생성을 통해 다양한 QA 데이터를 생성합니다. 폐쇄형 환경의 지식 집약적 작업에 대한 실험 결과, GraphGen은 기존 합성 데이터 방법보다 우수한 성능을 보이며, 지도 학습 파인튜닝에서 데이터 부족 문제에 대한 더 신뢰할 수 있고 포괄적인 솔루션을 제공합니다. 코드와 데이터는 공개적으로 제공됩니다.

시사점, 한계점

시사점:
고품질 지도 학습 데이터 확보의 어려움을 해결할 수 있는 새로운 합성 데이터 생성 방법 제시.
지식 그래프 활용으로 LLM의 지식 격차를 효과적으로 파악하고, 고부가가치 장기간 지식에 집중.
다중 홉 이웃 샘플링 및 스타일 제어 생성을 통해 다양하고 질 높은 QA 데이터 생성.
기존 합성 데이터 방법보다 우수한 성능으로 지도 학습 파인튜닝의 효율성 향상.
공개된 코드와 데이터를 통해 재현성 및 확장성 확보.
한계점:
제시된 방법의 성능이 특정 지식 집약적 작업 및 폐쇄형 환경에 국한될 가능성.
실제 데이터에 대한 일반화 성능에 대한 추가적인 연구 필요.
대규모 지식 그래프 구축 및 관리의 계산 비용 및 복잡성 고려 필요.
다양한 유형의 LLM 및 질문 유형에 대한 적용성 검증 필요.
👍