본 논문은 대규모 언어 모델(LLM)을 이용한 공격적 언어 탐지에서 주석 불일치 문제를 체계적으로 평가한 연구입니다. 주석 불일치는 주관적 해석으로 인해 발생하는 모호한 샘플을 포함하며, LLM이 이러한 샘플을 어떻게 처리하고, 특히 신뢰 수준이 어떻게 변하는지 분석합니다. 다양한 수준의 주석 일치도를 가진 샘플을 사용하여 여러 LLM의 성능을 이진 분류 정확도, 모델 신뢰도와 사람 간 불일치의 관계, 소수 샷 학습 및 지시어 미세 조정 중 불일치 샘플의 영향 등을 분석합니다. 그 결과, LLM은 주석 불일치가 높은 샘플에서 어려움을 겪고 과신하는 경향이 있지만, 불일치 샘플을 학습에 활용하면 탐지 정확도와 사람의 판단과의 일치도가 향상됨을 발견했습니다.