본 논문은 OCR(Optical Character Recognition) 기술을 활용하여 인보이스(invoice)에서 표 데이터를 효율적으로 추출하는 파이프라인 설계 및 개발에 대해 제시합니다. Tesseract OCR을 이용하여 텍스트를 인식하고, 사용자 정의 후처리 로직을 통해 스캔된 인보이스 문서에서 구조화된 표 데이터를 탐지, 정렬 및 추출합니다. 이 방법은 잡음이 많고 표준적이지 않은 인보이스 형식에도 최적화된 동적 전처리, 표 경계 탐지 및 행-열 매핑을 포함합니다. 결과적으로 생성된 파이프라인은 데이터 추출 정확도와 일관성을 크게 향상시켜 자동화된 재무 워크플로우 및 디지털 아카이빙과 같은 실제 사용 사례를 지원합니다.