Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Named Entity Recognition in Historical Italian: The Case of Giacomo Leopardi's Zibaldone

Created by
  • Haebom

저자

Cristian Santini, Laura Melosi, Emanuele Frontoni

개요

본 논문은 세계의 텍스트 유산의 디지털화 증가가 컴퓨터 과학과 문학 연구에 심각한 과제를 제기한다는 점을 다룹니다. 특히, 철자 및 표기법 변화, 단편적인 구조, 디지털화 오류와 같은 역사적 텍스트의 문제에 적응할 수 있는 컴퓨터 기술의 필요성이 시급합니다. 대규모 언어 모델(LLM)의 등장은 자연어 처리에 혁명을 일으켰으며, 역사적 문서에 대한 개체명 인식(NER)에 유망한 응용 프로그램을 제시합니다. 그러나 이탈리아어 텍스트에 대한 철저한 평가는 제시되지 않았습니다. 본 연구는 19세기 학술적 필기인 Giacomo Leopardi의 Zibaldone (1898)의 말뭉치를 기반으로 사람, 장소, 문학 작품에 대한 2,899개의 참조를 포함하는 새로운 어려운 개체 추출 데이터셋을 제안함으로써 이러한 간극을 메우려고 시도합니다. 이 데이터셋을 사용하여 도메인별 BERT 기반 모델과 LLaMa3.1과 같은 최첨단 LLM을 사용한 재현 가능한 실험을 수행했습니다. 결과는 지시어 미세 조정 모델이 역사적 인문학 텍스트를 처리하는 데 여러 가지 어려움에 직면하는 반면, 미세 조정된 NER 모델은 서지 참조와 같은 어려운 개체 유형에서도 더욱 견고한 성능을 제공함을 보여줍니다.

시사점, 한계점

시사점: 19세기 이탈리아어 학술적 필기인 Giacomo Leopardi의 Zibaldone를 기반으로 한 새로운 NER 데이터셋을 제시하여 역사적 텍스트에 대한 개체명 인식 연구에 기여. 도메인별 BERT 기반 모델과 최첨단 LLM의 성능 비교를 통해 역사적 텍스트 처리에 대한 각 모델의 강점과 약점을 제시. 역사적 텍스트 NER에서 미세 조정된 NER 모델의 우수성을 확인.
한계점: 데이터셋이 Giacomo Leopardi의 Zibaldone에 한정되어 일반화 가능성에 대한 제약 존재. 다양한 유형의 역사적 텍스트에 대한 추가적인 실험 필요. 사용된 LLM의 특정 버전에 대한 의존성.
👍