Sign In
개발 일지

Summary & linking

Y
yeji Kim

검증 코드

1.
pdf 로딩
2.
ocr
3.
json으로 저장.
준비사항
강의록 합치기
그 다음에 해야 할 것.
아 시험지 OCR할 때 is divided 어떻게 하지 ...
시험지는 확실히 오래 걸린다.
json 파일을 만든 다음 전처리.
교과서
단원 별로 페이지 나누게 해보기 → 목차를 dict 형태로 추출할 수 있을지.
목차가 포함된 페이지를 찾을 수 있는지 or 내용 기준으로 나눌 수 잇을지.
그 안에서 또 소단원 페이지를 나눌 수 있을지. → 목차를 dict 형태로.
연습 문제 등이 포함되어 있다면 그것도 포함해서 쪼개기.
강의록
얘는 그냥 분리된 상태로 넣을까. 전처리 딱히 필요 없고?
시험 문제
시험 안내, 교수님 정보, 시험지 - 시험 문제 - 발문/선지/정답 이렇게 나눌 수 있으면 좋긴 해.
그 다음 - 근거를 강의록, 교과서 페이지로 댈 수 있어야 한다.
강의록에서 드래그해서 쿼리를 입력 → 교과서에서 찾고, 시험 문제에서 찾고.
rag를 어떻게 하지. 목차에서 관련 있는 목차 찾기 → 관련있는 세부 목차 찾기 → 관련있는내용 찾기.
시험 문제 → 교과서에서, 강의록에서 관련 내용 찾기.
관련 있는 교과서, 강의록을 찾아줘. → 근거를 찾아줘.
embedder까지 쓰는 건 지금 단계에서는 투머치인 것 같고.
학습 가이드는 어떻게 활용하지.
중요한 건 출처가 다 들어가 있어야 한다 ...
Subscribe to '아무튼-작업일지'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to '아무튼-작업일지'!
Subscribe
👍