본 논문은 다중 모달 대규모 언어 모델(mLLMs)을 활용하여 역사적 문서의 전사, 관련 정보 추출, 데이터셋 구축을 지원하는 방법을 탐구한다. 1754년부터 1870년 사이에 독일어로 출판된 도시 목록을 대상으로, (1) 광학 문자 인식(OCR), (2) OCR 후처리, (3) 개체명 인식(NER) 작업에 대한 mLLMs의 성능을 조사했다. 기존 OCR 모델과 mLLMs의 전사 정확도를 벤치마킹한 결과, 최고 성능의 mLLM 모델이 기존 최첨단 OCR 모델 및 다른 mLLMs를 상당히 능가함을 확인했다. 또한, mLLMs를 사용한 OCR 출력의 다중 모달 후처리 방법을 처음으로 제시하여 이미지 전처리나 모델 미세 조정 없이 높은 정확도의 전사(<1% CER)를 달성했다. 마지막으로, mLLMs가 역사적 문서 전사에서 효율적으로 개체를 인식하고 구조화된 데이터셋 형식으로 파싱할 수 있음을 보여주었다. 결과적으로, mLLMs가 역사 데이터 수집 및 문서 전사 방식에 혁신을 가져올 수 있는 잠재력을 보여주는 초기 증거를 제시한다.