Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Comparative Analysis of Word Segmentation, Part-of-Speech Tagging, and Named Entity Recognition for Historical Chinese Sources, 1900-1950

Created by
  • Haebom
Category
Empty

저자

Zhao Fang, Liang-Chun Wu, Xuening Kong, Spencer Dean Stewart

개요

본 논문은 1900년부터 1950년까지의 중국어 텍스트에 대한 단어 분절, 품사 태깅, 개체명 인식 작업에서 대규모 언어 모델(LLM)과 기존 자연어 처리(NLP) 도구를 비교 분석합니다. 로그형 문자, 자연스러운 단어 경계의 부재, 그리고 상당한 언어적 변화로 인해 역사적 중국어 문서는 텍스트 분석에 어려움을 야기합니다. 상하이 도서관 공화국 시대 저널 말뭉치의 표본 데이터셋을 사용하여 Jieba와 spaCy와 같은 기존 도구들을 GPT-4o, Claude 3.5, GLM 시리즈를 포함한 LLM과 비교했습니다. 그 결과, LLM이 상당히 높은 계산 비용에도 불구하고 모든 지표에서 기존 방법보다 우수한 성능을 보이는 것으로 나타났으며, 정확성과 효율성 사이의 절충 관계를 강조합니다. 또한, LLM은 시(詩)와 같은 장르 특유의 과제와 1920년 이전과 이후 텍스트와 같은 시간적 변화를 더 잘 처리하여, LLM의 문맥 학습 기능이 도메인 특정 훈련 데이터에 대한 필요성을 줄임으로써 역사적 텍스트에 대한 NLP 접근 방식을 발전시킬 수 있음을 보여줍니다.

시사점, 한계점

시사점:
LLM이 역사적 중국어 텍스트 분석에서 기존 NLP 도구보다 우수한 성능을 보임.
LLM의 문맥 학습 능력이 장르 특징 및 시간적 변화에 대한 처리 능력 향상에 기여.
도메인 특정 훈련 데이터에 대한 의존도 감소 가능성 제시.
한계점:
LLM의 높은 계산 비용.
사용된 데이터셋의 규모 및 대표성에 대한 추가적인 검토 필요.
👍