본 연구는 켄터키주를 사례 연구로 하여, 교통사고 기록의 품질 향상을 위해 교통사고 관련 서술 내용을 분석하는 고급 자연어 처리(NLP) 기술을 평가했습니다. 2015년부터 2022년까지 수동으로 검토된 16,656건의 서술 내용(2차 사고 확인 3,803건)을 바탕으로, 제로샷 오픈소스 거대 언어 모델(LLM)(LLaMA3:70B, DeepSeek-R1:70B, Qwen3:32B, Gemma3:27B), 미세 조정된 Transformer(BERT, DistilBERT, RoBERTa, XLNet, Longformer), 그리고 기준선으로 사용된 전통적인 로지스틱 회귀 분석 등 세 가지 모델 클래스를 비교했습니다. 모델들은 2015년부터 2021년까지의 데이터로 보정되었고, 2022년의 1,771건의 서술 내용으로 테스트되었습니다. 미세 조정된 Transformer가 우수한 성능을 보였으며, RoBERTa가 가장 높은 F1 점수(0.90)와 정확도(95%)를 달성했습니다. 제로샷 LLaMA3:70B는 0.86의 비슷한 F1 점수를 달성했지만, 추론에 139분이 걸렸습니다. 로지스틱 기준선은 상당히 뒤처졌습니다(F1: 0.66). LLM은 특정 변형(예: GEMMA3:27B, 재현율 0.94)에서 재현율이 뛰어났지만, 높은 계산 비용(DeepSeek-R1:70B의 경우 최대 723분)이 발생했습니다. 반면 미세 조정된 모델은 간단한 훈련 후 몇 초 만에 테스트 세트를 처리했습니다. 추가 분석 결과, 중간 크기의 LLM(예: DeepSeek-R1:32B)은 성능 저하 없이 실행 시간을 단축할 수 있어 최적화된 배포에 대한 가능성을 보여주었습니다. 결과는 정확도, 효율성, 데이터 요구 사항 간의 절충 관계를 강조하며, 미세 조정된 Transformer 모델은 켄터키 데이터에서 정밀도와 재현율의 균형을 효과적으로 맞췄습니다. 실용적인 배포 고려 사항으로는 개인 정보 보호를 위한 로컬 배포, 정확도 향상을 위한 앙상블 접근 방식, 확장성을 위한 점진적 처리 등이 있으며, 고급 NLP를 사용하여 교통사고 데이터 품질을 향상시키는 복제 가능한 체계를 제공합니다.