Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multimodal LLMs for OCR, OCR Post-Correction, and Named Entity Recognition in Historical Documents

Created by
  • Haebom

저자

Gavin Greif, Niclas Griesshaber, Robin Greif

개요

본 논문은 다중 모달 대규모 언어 모델(mLLMs)을 활용하여 역사적 문서의 전사, 관련 정보 추출, 데이터셋 구축을 지원하는 방법을 탐구한다. 1754년부터 1870년 사이에 독일어로 출판된 도시 목록을 대상으로, (1) 광학 문자 인식(OCR), (2) OCR 후처리, (3) 개체명 인식(NER) 작업에 대한 mLLMs의 성능을 조사했다. 기존 OCR 모델과 mLLMs의 전사 정확도를 벤치마킹한 결과, 최고 성능의 mLLM 모델이 기존 최첨단 OCR 모델 및 다른 mLLMs를 상당히 능가함을 확인했다. 또한, mLLMs를 사용한 OCR 출력의 다중 모달 후처리 방법을 처음으로 제시하여 이미지 전처리나 모델 미세 조정 없이 높은 정확도의 전사(<1% CER)를 달성했다. 마지막으로, mLLMs가 역사적 문서 전사에서 효율적으로 개체를 인식하고 구조화된 데이터셋 형식으로 파싱할 수 있음을 보여주었다. 결과적으로, mLLMs가 역사 데이터 수집 및 문서 전사 방식에 혁신을 가져올 수 있는 잠재력을 보여주는 초기 증거를 제시한다.

시사점, 한계점

시사점:
mLLMs가 기존 OCR 모델보다 훨씬 높은 정확도로 역사적 문서 전사가 가능함을 입증.
mLLMs를 이용한 혁신적인 OCR 후처리 방법 제시 및 높은 정확도 달성.
mLLMs를 활용한 역사적 문서 내 개체명 인식 및 구조화된 데이터셋 생성 가능성 제시.
역사 데이터 수집 및 문서 전사 방식에 대한 패러다임 전환 가능성 제시.
한계점:
연구 대상이 특정 시기(1754-1870)의 독일어 도시 목록에 국한됨. 다른 언어, 시기, 문서 유형으로의 일반화 가능성에 대한 추가 연구 필요.
본 연구는 초기 연구이며, mLLMs의 장기적인 효용성 및 확장성에 대한 추가적인 검증이 필요.
사용된 mLLM 모델의 구체적인 종류와 매개변수에 대한 자세한 설명 부족.
다른 OCR 후처리 기법과의 비교 분석이 부족함.
👍