Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding

Created by
  • Haebom

저자

Ahmed Heakl, Abdullah Sohail, Mukul Ranjan, Rania Hossam, Ghazi Shazan Ahmad, Mohamed El-Geish, Omar Maher, Zhiqiang Shen, Fahad Khan, Salman Khan

개요

본 논문은 아랍어 OCR(광학 문자 인식)의 성능 향상을 위한 종합적인 벤치마크인 KITAB-Bench를 제시합니다. KITAB-Bench는 9개 주요 도메인과 36개 하위 도메인에 걸쳐 8,809개의 샘플을 포함하며, 필기체 텍스트, 구조화된 표, 21가지 유형의 차트 등 다양한 문서 유형을 다룹니다. 논문은 최신 Vision-Language 모델(GPT-4o, Gemini, Qwen 등)이 기존 OCR 접근 방식(EasyOCR, PaddleOCR, Surya 등)보다 문자 오류율(CER) 측면에서 평균 60% 향상된 성능을 보임을 보여줍니다. 하지만 PDF에서 Markdown으로의 변환과 같은 특정 작업에서는 여전히 상당한 한계(예: Gemini-2.0-Flash의 65% 정확도)가 존재함을 강조하며, 복잡한 글꼴, 숫자 인식 오류, 단어 길이 변화, 표 구조 감지 등의 문제점을 지적합니다. KITAB-Bench는 아랍어 문서 분석 방법 개선과 영어 OCR 기술과의 성능 격차 해소를 위한 엄격한 평가 프레임워크를 제공합니다.

시사점, 한계점

시사점:
아랍어 OCR 성능 평가를 위한 종합적인 벤치마크 KITAB-Bench 제시.
Vision-Language 모델이 기존 OCR 모델보다 우수한 성능을 보임을 실험적으로 증명.
아랍어 OCR 기술 발전을 위한 엄격한 평가 기준 제시.
아랍어 문서 처리 분야의 연구 방향 제시.
한계점:
PDF에서 Markdown으로의 변환 작업에서 여전히 낮은 정확도(65%)를 보임.
복잡한 글꼴, 숫자 인식 오류, 단어 길이 변화, 표 구조 감지 등 아랍어 OCR의 난제 지속.
KITAB-Bench의 샘플 수와 다양성을 더욱 확장할 필요성.
👍