본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위해 인지 진단 이론(CDT)에 기반한 새로운 평가 및 데이터 합성 방법인 Cognitive Diagnostic Synthesis (CDS)를 제안합니다. 기존 평가 방법의 한계를 극복하고, 모델의 지식 구성 요소 수준에서 상세한 프로파일을 제공하여 약점을 타겟으로 하는 데이터 합성 전략을 제시합니다. 개선된 데이터 증강 및 선택 파이프라인을 통해 합성 데이터의 질과 다양성을 높이고, 여러 오픈소스 모델 실험을 통해 코드 생성, 수학적 추론, 학업 시험 등 다양한 벤치마크에서 최대 6.00%, 13.10%, 5.43%의 성능 향상을 달성했습니다. 코드와 데이터는 GitHub에서 공개됩니다.