Hespi (HErbarium Specimen sheet PIpeline)는 컴퓨터 비전 기술을 이용하여 허바리움 표본의 주요 표본 라벨에서 카탈로그 이전 데이터를 추출하는 파이프라인입니다. 표본 라벨의 구성요소와 필드를 감지하는 두 개의 객체 탐지 모델을 통합하고, 라벨의 유형(인쇄, 타이핑, 필기, 혼합)을 분류하여 OCR 및 HTR을 사용하여 텍스트를 추출합니다. 추출된 텍스트는 권위 있는 분류군 데이터베이스를 기반으로 교정되고 다중 모드 LLM을 사용하여 개선됩니다. Hespi는 국제적인 허바리움의 표본 시트에서 텍스트를 정확하게 감지하고 추출하며, 모듈식 설계로 사용자 정의 모델을 훈련하고 통합할 수 있습니다.