PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language
Created by
Haebom
저자
Ijazul Haq, Yingjie Zhang, Irfan Ali Khan
개요
본 논문은 저자원 파슈토어에 대한 광학 문자 인식(OCR)에서 대규모 다중 모달 모델(LMM)의 성능을 평가합니다. 파슈토어의 자연어 처리(NLP)는 필기체의 특성과 구조화된 데이터셋 부족으로 어려움을 겪습니다. 이를 해결하기 위해, 단어, 줄, 문서 수준의 경계 상자 주석이 있는 백만 개의 이미지로 구성된 합성 파슈토 OCR 데이터셋 PsOCR을 개발했습니다. PsOCR은 1,000개의 고유한 글꼴, 색상, 이미지 크기 및 레이아웃의 변형을 포함합니다. 7개의 오픈소스 모델(Janus, InternVL, MiniCPM, Florence, Qwen 3B 및 7B)과 4개의 클로즈드소스 모델(GPT-4o, Gemini, Claude, Grok)을 포함한 여러 LMM의 성능을 평가하기 위해 1만 개 이미지의 벤치마크 하위 집합을 선택했습니다. 실험 결과, Gemini가 모든 모델 중 최고의 성능을 달성했고, 오픈소스 모델 중에서는 Qwen-7B가 두각을 나타냈습니다. 본 연구는 파슈토어 OCR뿐만 아니라 아랍어, 페르시아어, 우르두어와 같은 유사한 문자에도 적용 가능한 추가 연구의 기반을 마련합니다. PsOCR은 https://github.com/zirak-ai/PashtoOCR 에서 이용 가능합니다.