본 논문은 1900년부터 1950년까지의 중국어 텍스트에 대한 단어 분절, 품사 태깅, 개체명 인식 작업에서 대규모 언어 모델(LLM)과 기존 자연어 처리(NLP) 도구를 비교 분석합니다. 로그형 문자, 자연스러운 단어 경계의 부재, 그리고 상당한 언어적 변화로 인해 역사적 중국어 문서는 텍스트 분석에 어려움을 야기합니다. 상하이 도서관 공화국 시대 저널 말뭉치의 표본 데이터셋을 사용하여 Jieba와 spaCy와 같은 기존 도구들을 GPT-4o, Claude 3.5, GLM 시리즈를 포함한 LLM과 비교했습니다. 그 결과, LLM이 상당히 높은 계산 비용에도 불구하고 모든 지표에서 기존 방법보다 우수한 성능을 보이는 것으로 나타났으며, 정확성과 효율성 사이의 절충 관계를 강조합니다. 또한, LLM은 시(詩)와 같은 장르 특유의 과제와 1920년 이전과 이후 텍스트와 같은 시간적 변화를 더 잘 처리하여, LLM의 문맥 학습 기능이 도메인 특정 훈련 데이터에 대한 필요성을 줄임으로써 역사적 텍스트에 대한 NLP 접근 방식을 발전시킬 수 있음을 보여줍니다.