Share
Sign In
개발 일지
Summary & linking
Y
yeji Kim
👍
검증 코드
1.
pdf 로딩
2.
ocr
3.
json으로 저장.
준비사항
강의록 합치기
그 다음에 해야 할 것.
아 시험지 OCR할 때 is divided 어떻게 하지 ...
시험지는 확실히 오래 걸린다.
json 파일을 만든 다음 전처리.
교과서
단원 별로 페이지 나누게 해보기 → 목차를 dict 형태로 추출할 수 있을지.
목차가 포함된 페이지를 찾을 수 있는지 or 내용 기준으로 나눌 수 잇을지.
그 안에서 또 소단원 페이지를 나눌 수 있을지. → 목차를 dict 형태로.
연습 문제 등이 포함되어 있다면 그것도 포함해서 쪼개기.
강의록
얘는 그냥 분리된 상태로 넣을까. 전처리 딱히 필요 없고?
시험 문제
시험 안내, 교수님 정보, 시험지 - 시험 문제 - 발문/선지/정답 이렇게 나눌 수 있으면 좋긴 해.
그 다음 - 근거를 강의록, 교과서 페이지로 댈 수 있어야 한다.
강의록에서 드래그해서 쿼리를 입력 → 교과서에서 찾고, 시험 문제에서 찾고.
rag를 어떻게 하지. 목차에서 관련 있는 목차 찾기 → 관련있는 세부 목차 찾기 → 관련있는내용 찾기.
시험 문제 → 교과서에서, 강의록에서 관련 내용 찾기.
관련 있는 교과서, 강의록을 찾아줘. → 근거를 찾아줘.
embedder까지 쓰는 건 지금 단계에서는 투머치인 것 같고.
학습 가이드는 어떻게 활용하지.
중요한 건 출처가 다 들어가 있어야 한다 ...
Subscribe to '아무튼-작업일지'
Welcome to '아무튼-작업일지'!
By subscribing to my site, you'll be the first to receive notifications and emails about the latest updates, including new posts.
Join SlashPage and subscribe to '아무튼-작업일지'!
Subscribe
👍
Other posts in '개발 일지'See all
yeji Kim
기획서 Why 배경 앱을 개발하게 된 배경이나 문제의 원인. 데이터를 근거로 한 인사이트. 의대생의 학습에 도움을 주는 앱을 만들고 싶다. 전국 의대생 xxx명. 사용자 누구를 위한 앱인지. 그들이 왜 이 앱을 사용해야 하는지. 정말 그들이 이 앱을 원할지. 왜 그들인지. 그들이 왜 중요한지. 족보 공부하는 게 불편하다. 요약본 만드는 것도 불편하다. 이
기획서 Why 배경 앱을 개발하게 된 배경이나 문제의 원인. 데이터를 근거로 한 인사이트. 의대생의 학습에 도움을 주는 앱을 만들고 싶다. 전국 의대생 xxx명. 사용자 누구를 위한 앱인지. 그들이 왜 이 앱을 사용해야 하는지. 정말 그들이 이 앱을 원할지. 왜 그들인지. 그들이 왜 중요한지. 족보 공부하는 게 불편하다. 요약본 만드는 것도 불편하다. 이 시간만 줄이면 공부가 훨씬 편해질 것 같다. 사용자 여정 사용자가 앱을 통해 문제의 원인을 해결하는 과정. 앱 사용 이전/ 중 이후의 상태와 감정 자세히 적기. 앱을 사용하기 전 - 기능적 요구 사항 앱에 포함되어야 할 기능. 회원 가입. 향후 개획 개발 일정부터 배포 계획, 수정 및 업데이트 등. How What
yeji Kim
Langchain으로 RAG 구현하기
Fine-tuning - PEFT, QLoRa 더 발전된 모델인 Fusion-in-Decoder(FiD)나 Atlas를 고려하기 키워드 검색과 벡터 검색을 함께 사용하기 Vector DB 대신 Knowledge Graph를 사용하기 Python langchain chunk_size chunk_overlap splitter = CharacterTextSplitter.from_tiktoken_encoder( separator="\n", chunk_size=500, chunk_overlap=50 ) docs = data_loader.load_and_split(text_splitter=splitter) embeddings = OpenAIEmbeddings() cached_embeddings = CacheBackedEmbeddings.from_bytes_store(embeddings, cache_dir) 과정 Raw data → connecting Connecting → embedding Embedding Vector DB Retrieval
yeji Kim
database
정규화 신경쓰기 (1NF, 2NF, 3NF, BCNF) db create CREATE TABLE subjects ( subjectId INT PRIMARY KEY AUTO_INCREMENT, subjectName VARCHAR(255) NOT NULL, description TEXT, grade INT NOT NULL, semester INT NOT NULL ); CREATE TABLE professors ( professorId INT PRIMARY KEY AUTO_INCREMENT, professorName VARCHAR(255) NOT NULL, email VARCHAR(255), department VARCHAR(255) ); CREATE TABLE topics ( topicId INT PRIMARY KEY AUTO_INCREMENT, subjectId INT, topicTitle VARCHAR(255) NOT NULL, topicOrder INT NOT NULL, description TEXT, FOREIGN KEY (subjectId) REFERENCES subjects(subjectId) ); CREATE TABLE subtopics ( subtopicId INT PRIMARY KEY AUTO_INCREMENT, topicId INT, subtopicTitle VARCHAR(255) NOT NULL, subtopicOrder INT NOT NULL, description TEXT, FOREIGN KEY (topicId) REFERENCES topics(topicId) ); CREATE TABLE detailedTopics ( detailedTopicId INT PRIMARY KEY AUTO_INCREMENT, subtopicId INT, detailedTopicTitle VARCHAR(255) NOT NULL, detailedTopicOrder INT NOT NULL, description TEXT, FOREIGN KEY (subtopicId) REFERENCES subtopics(subtopicId) ); CREATE TABLE detailedTopicProfessorMapping ( mappingId INT PRIMARY KEY AUTO_INCREMENT, detailedTopicId INT, professorId INT, year YEAR, FOREIGN KEY (detailedTopicId) REFERENCES detailedTopics(detailedTopicId), FOREIGN KEY (professorId) REFERENCES professors(professorId) ); CREATE TABLE lectureNotes ( lectureNoteId INT PRIMARY KEY AUTO_INCREMENT, title VARCHAR(255) NOT NULL, version VARCHAR(50), year YEAR, isCurrent BOOLEAN DEFAULT 1, uploadDate DATE, filePath VARCHAR(255), notes TEXT ); CREATE TABLE lectureSlides ( slideId INT PRIMARY KEY AUTO_INCREMENT, lectureNoteId INT, detailedTopicId INT, slideNumber INT NOT NULL, slideTitle VARCHAR(255), slideContent TEXT, imagePath VARCHAR(255), pdfPage INT, pdfCoordinates VARCHAR(255), tableData TEXT, notes TEXT, FOREIGN KEY (lectureNoteId) REFERENCES lectureNotes(lectureNoteId), FOREIGN KEY (detailedTopicId) REFERENCES detailedTopics(detailedTopicId) ); CREATE TABLE textbooks ( textbookId INT PRIMARY KEY AUTO_INCREMENT, textbookTitle VARCHAR(255) NOT NULL, author VARCHAR(255), version VARCHAR(50) NOT NULL, publicationYear YEAR NOT NULL, isCurrent BOOLEAN DEFAULT 1, filePath VARCHAR(255) );