Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language

Created by
  • Haebom

저자

Ijazul Haq, Yingjie Zhang, Irfan Ali Khan

개요

본 논문은 저자원 파슈토어에 대한 광학 문자 인식(OCR)에서 대규모 다중 모달 모델(LMM)의 성능을 평가합니다. 파슈토어의 자연어 처리(NLP)는 필기체의 특성과 구조화된 데이터셋 부족으로 어려움을 겪습니다. 이를 해결하기 위해, 단어, 줄, 문서 수준의 경계 상자 주석이 있는 백만 개의 이미지로 구성된 합성 파슈토 OCR 데이터셋 PsOCR을 개발했습니다. PsOCR은 1,000개의 고유한 글꼴, 색상, 이미지 크기 및 레이아웃의 변형을 포함합니다. 7개의 오픈소스 모델(Janus, InternVL, MiniCPM, Florence, Qwen 3B 및 7B)과 4개의 클로즈드소스 모델(GPT-4o, Gemini, Claude, Grok)을 포함한 여러 LMM의 성능을 평가하기 위해 1만 개 이미지의 벤치마크 하위 집합을 선택했습니다. 실험 결과, Gemini가 모든 모델 중 최고의 성능을 달성했고, 오픈소스 모델 중에서는 Qwen-7B가 두각을 나타냈습니다. 본 연구는 파슈토어 OCR뿐만 아니라 아랍어, 페르시아어, 우르두어와 같은 유사한 문자에도 적용 가능한 추가 연구의 기반을 마련합니다. PsOCR은 https://github.com/zirak-ai/PashtoOCR 에서 이용 가능합니다.

시사점, 한계점

시사점:
저자원 언어인 파슈토어에 대한 효과적인 OCR 시스템 개발을 위한 새로운 합성 데이터셋 PsOCR을 제시.
다양한 LMM의 파슈토어 OCR 성능 비교 분석을 통해 Gemini와 Qwen-7B의 우수성을 확인.
파슈토어와 유사한 문자를 사용하는 언어의 OCR 연구에 기여.
오픈소스 모델의 발전 가능성을 보여줌.
한계점:
합성 데이터셋의 사용으로 인한 실제 데이터와의 차이.
평가에 사용된 모델의 제한된 범위.
특정 모델의 성능에 대한 상세한 분석 부족.
실제 세계 적용 가능성에 대한 추가 연구 필요.
👍