
[SRP AX] SchoolNote OCR
강남의 대입 컨설팅 업체의 전반적인 업무 플로우에 AI를 적용하는 업무를 맡게 되었다. 지인이 TA로 일하던 업체였고, 지인이 개인적으로 사용하던 AI 툴에 관심을 보이셨고, AI 도입에 대한 의지가 있으신 상태셨다. 몇차례의 원장님과의 미팅과 실무자 미팅을 통해 여러 프로젝트를 시작했다. 도입 목적 업무 플로우는 여러 방향이었고 진행할 수 있는 프로젝트는 다양했지만, 가장 먼저 해야할 일은 데이터를 잘 정리하여 AI와 소프트웨어에서 사용하기 좋은 형태로 만드는 작업이라고 판단했다. 비정형 데이터이고, 활용 가치가 높으며, 독점적 내부 데이터가 우선순위에 있었고, 이 업체에서는 수강생,상담생들의 생활기록부가 그러한 데이터였다. 기존에 해당 데이터는 다음과 같이 관리 및 활용되고 있었다. 종이문서, 또는 그 문서를 찍은 이미지, 또는 pdf 원본 구글드라이브에 일괄적으로 관리. 문서명으로 인덱싱, 검색 내용기반 검색은 일절 불가능. 컨설턴트의 기억력에 의존하여 유사 사례 조회 이 생활기록부가 중요한 데이터인 이유는 다음과 같다. 컨설팅 학생의 모든 것이 담겨있는 근원적 데이터이다. 이 데이터를 기반으로 컨설턴트의 분석, 상담, 수업이 이루어진다. 이 업체의 해자는 이 기초데이터에 대한 컨설턴트의 노하우가 담긴 커멘트와 평가 그리고 추후 action 제안이다. 그래서 문서,이미지,pdf 로 흩어져있던 데이터를 규격화된 markdown으로 포맷팅하고, 근원 데이터베이스를 축적하는 시스템을 제안했다. 기술 파이프라인 OCR 모델은 Mistral 의 OCR 3 모델을 사용했다. 업스테이지의 Document AI를 포함하여, gemini 등 다양한 모델을 테스트해봤을 때, 체감상 가장 정확도가 높았고, api 비용도 2$ / 1000page 로 저렴하여 이 모델을 선택했다.
- 예준천예