본 연구는 충돌 사고 서술문 분류에서 심층 학습(DL) 모델의 정확도와 전문가 합의 간의 관계를 탐구합니다. BERT 변형, Universal Sentence Encoder (USE), 제로샷 분류기를 포함한 다섯 가지 DL 모델을 전문가가 라벨링한 데이터와 서술문 텍스트에 대해 평가하고, GPT-4, LLaMA 3, Qwen, Claude 네 가지 대규모 언어 모델(LLM)로 분석을 확장합니다. 결과적으로, 높은 기술적 정확도를 가진 모델은 전문가와의 합의도가 낮은 반면, LLM은 상대적으로 낮은 정확도에도 불구하고 전문가와의 합의도가 높은 역설적인 경향을 발견했습니다. 모델-전문가 합의를 정량화하고 해석하기 위해 Cohen's Kappa, 주성분 분석(PCA), SHAP 기반 설명 가능성 기법을 사용했습니다. 전문가와 합의가 잘 맞는 모델은 위치 특정 키워드보다 문맥적 및 시간적 언어 단서에 더 의존하는 경향이 있음을 보여줍니다. 이러한 결과는 안전에 중요한 NLP 애플리케이션에서 정확도만으로는 모델을 평가하기에 불충분함을 강조합니다. 모델 평가 프레임워크에 전문가 합의를 보완적인 지표로 통합하고, 충돌 분석 파이프라인을 위한 해석 가능하고 확장 가능한 도구로서 LLM의 가능성을 강조합니다.