TRIDIS (Tria Digita Scribunt)는 중세 및 근대 초기 필사본의 오픈소스 말뭉치입니다. 여러 기존 컬렉션(모두 오픈 라이선스로 출판됨)을 통합하고 광범위한 메타데이터 설명을 포함합니다. 이전 출판물에서 이 말뭉치의 일부를 참조했지만, 본 논문에서는 구성에 더 중점을 둔 통합 개요를 제공합니다. 각 주요 하위 말뭉치의 서술적, 연대적, 편집적 배경, 반외교적 전사 규칙(확장, 정규화, 구두점), 공동 임베딩 공간에서 이상치 탐지를 기반으로 한 도메인 외 테스트 분할에 대한 전략, TrOCR 및 MiniCPM2.5를 사용한 예비 기준 실험(무작위 및 이상치 기반 테스트 분할 비교)을 설명합니다. 전반적으로 TRIDIS는 중세 및 근대 초기 텍스트 유산 전반에 걸쳐 강력한 필기체 텍스트 인식(HTR)과 명명된 개체 인식(NER) 연구를 촉진하도록 설계되었습니다.