본 연구는 충돌 상황 기술 분류에서 심층 학습(DL) 모델의 정확도와 전문가 합의 간의 관계를 조사합니다. BERT 변형, USE 및 제로샷 분류기를 포함한 5개의 DL 모델을 전문가 레이블 및 서술과 비교 평가하고, GPT-4, LLaMA 3, Qwen 및 Claude와 같은 4개의 대규모 언어 모델(LLM)로 분석을 확장합니다. 연구 결과, 높은 기술적 정확도를 가진 모델은 전문가와의 합의도가 낮은 반면, LLM은 정확도가 낮음에도 불구하고 전문가와의 합의도가 더 높은 역 상관 관계를 보입니다. Cohen의 Kappa와 주성분 분석(PCA)을 사용하여 모델-전문가 합의를 정량화하고 시각화하며, SHAP 분석을 사용하여 잘못 분류된 사례를 설명합니다. 결과는 전문가와 합의된 모델이 위치 특정 키워드보다 문맥적 및 시간적 단서에 더 많이 의존함을 보여줍니다. 이러한 결과는 안전에 중요한 NLP 작업에는 정확도만으로는 충분하지 않음을 시사합니다. 모델 평가 프레임워크에 전문가 합의를 통합하고 충돌 분석 파이프라인에서 LLM을 해석 가능한 도구로 활용할 가능성을 강조합니다.