본 논문은 대규모 언어 모델(LLM) 학습을 위한 고품질 데이터를 확보하기 위해, 교재 및 문제집과 같은 교육 자료에서 QA (Question-Answer) 및 VQA (Visual Question-Answer) 쌍을 추출하는 자동화된 파이프라인을 제안합니다. 레이아웃 인식 OCR과 LLM 기반 의미론적 파싱을 결합하여, 교육 자료 PDF를 AI 학습에 적합한 데이터로 변환합니다. 이 방법은 정확하고 정렬된 데이터를 생성하여, 합성 데이터 생성의 대안을 제시하고 추론 지향 LLM 훈련을 개선합니다.