Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TRIDIS: A Comprehensive Medieval and Early Modern Corpus for HTR and NER

Created by
  • Haebom

저자

Sergio Torres Aguilar

개요

TRIDIS (Tria Digita Scribunt)는 중세 및 근대 초기 필사본의 오픈소스 말뭉치입니다. 여러 기존 컬렉션(모두 오픈 라이선스로 출판됨)을 통합하고 광범위한 메타데이터 설명을 포함합니다. 이전 출판물에서 이 말뭉치의 일부를 참조했지만, 본 논문에서는 구성에 더 중점을 둔 통합 개요를 제공합니다. 각 주요 하위 말뭉치의 서술적, 연대적, 편집적 배경, 반외교적 전사 규칙(확장, 정규화, 구두점), 공동 임베딩 공간에서 이상치 탐지를 기반으로 한 도메인 외 테스트 분할에 대한 전략, TrOCR 및 MiniCPM2.5를 사용한 예비 기준 실험(무작위 및 이상치 기반 테스트 분할 비교)을 설명합니다. 전반적으로 TRIDIS는 중세 및 근대 초기 텍스트 유산 전반에 걸쳐 강력한 필기체 텍스트 인식(HTR)과 명명된 개체 인식(NER) 연구를 촉진하도록 설계되었습니다.

시사점, 한계점

시사점: 중세 및 근대 초기 필사본에 대한 대규모 오픈소스 말뭉치 제공, HTR 및 NER 연구를 위한 새로운 데이터셋 제공, 이상치 탐지를 활용한 강건한 테스트 분할 전략 제시, TrOCR 및 MiniCPM2.5와 같은 모델을 활용한 초기 성능 평가 제공.
한계점: 아직 초기 단계의 연구로, TRIDIS 말뭉치의 규모 및 질에 대한 자세한 분석 부족, 이상치 탐지 기반의 테스트 분할 전략의 일반성 및 한계에 대한 추가 연구 필요, HTR 및 NER 성능 향상을 위한 추가적인 연구 필요.
👍