Sign In

CDS: Data Synthesis Method Guided by Cognitive Diagnosis Theory

Created by
  • Haebom
Category
Empty

저자

Haokun Zhao, Jinyi Han, Jiaqing Liang, Yanghua Xiao

개요

본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위해 인지 진단 이론(CDT)에 기반한 새로운 평가 및 데이터 합성 방법인 Cognitive Diagnostic Synthesis (CDS)를 제안합니다. 기존 평가 방법의 한계를 극복하고, 모델의 지식 구성 요소 수준에서 상세한 프로파일을 제공하여 약점을 타겟으로 하는 데이터 합성 전략을 제시합니다. 개선된 데이터 증강 및 선택 파이프라인을 통해 합성 데이터의 질과 다양성을 높이고, 여러 오픈소스 모델 실험을 통해 코드 생성, 수학적 추론, 학업 시험 등 다양한 벤치마크에서 최대 6.00%, 13.10%, 5.43%의 성능 향상을 달성했습니다. 코드와 데이터는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
LLM 성능 향상을 위한 새로운 평가 및 데이터 합성 방법(CDS) 제시
CDT 기반의 세밀한 모델 진단 및 약점 분석 가능
다양한 벤치마크에서의 성능 향상 증명 (코드 생성, 수학적 추론, 학업 시험)
공개된 코드와 데이터를 통한 재현성 확보
한계점:
제시된 방법의 일반화 가능성에 대한 추가 연구 필요
다양한 유형의 LLM 및 작업에 대한 성능 평가 필요
CDT의 가정에 대한 의존성 및 그로 인한 한계 존재 가능성
👍