Summary & linking
검증 코드 pdf 로딩 ocr json으로 저장. 준비사항 강의록 합치기 그 다음에 해야 할 것. 아 시험지 OCR할 때 is divided 어떻게 하지 ... 시험지는 확실히 오래 걸린다. json 파일을 만든 다음 전처리. 교과서 단원 별로 페이지 나누게 해보기 → 목차를 dict 형태로 추출할 수 있을지. 목차가 포함된 페이지를 찾을 수 있는지 or 내용 기준으로 나눌 수 잇을지. 그 안에서 또 소단원 페이지를 나눌 수 있을지. → 목차를 dict 형태로. 연습 문제 등이 포함되어 있다면 그것도 포함해서 쪼개기. 강의록 얘는 그냥 분리된 상태로 넣을까. 전처리 딱히 필요 없고?