Transcription and Recognition of Italian Parliamentary Speeches Using Vision-Language Models

작성자

Haebom

카테고리

Empty

저자

Luigi Curini, Alfio Ferrara, Giovanni Pagano, Sergio Picascia

💡 개요

본 연구는 스캔된 역사 문건 형태로만 존재하는 이탈리아 의회 연설문의 텍스트 재구성 및 의미 분석의 어려움을 해결하기 위해 Vision-Language Model (VLM) 기반 파이프라인을 제안합니다. 제안된 파이프라인은 전문 OCR 모델로 텍스트를 추출하고, 이후 대규모 VLM이 시각적 레이아웃과 텍스트 내용을 함께 분석하여 전사 오류를 수정하고, 발언자 식별 및 해당 정보를 의회 지식 베이스와 연동합니다. 실험 결과, 기존 방식 대비 전사 품질과 발언자 태깅 정확도가 크게 향상되었습니다.

🔑 시사점 및 한계

•

스캔된 문서 형태로 존재하는 역사적 의회 연설문과 같은 희소 자원에 대한 자동 전사, 의미 분석, 개체 연결을 효과적으로 수행할 수 있는 새로운 프레임워크를 제시합니다.

•

VLM을 활용하여 시각적 정보와 텍스트 정보를 통합함으로써 기존 OCR 기반 파이프라인의 한계를 극복하고 정확도를 높일 수 있음을 입증합니다.

•

발언자 식별 후 의회 지식 베이스와 연동하는 과정에서 SPARQL 쿼리와 다중 전략 퍼지 매칭이 활용되어 정보의 신뢰도를 높였습니다.

•

제안된 방법론의 효과성은 이탈리아 의회 연설문에 대해 검증되었으나, 다른 언어나 다른 종류의 문서에 대한 일반화 가능성은 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage