본 논문은 지속적으로 진화하는 피싱 공격에 대한 효과적인 대응책으로, 대규모 언어 모델(LLM)을 활용한 피싱 이메일 분류 및 설명 가능성 향상 연구를 제시합니다. BERT, Llama, Wizard 등의 Transformer 기반 모델을 이진 시퀀스 분류, 대조 학습(CL), 직접 선호도 최적화(DPO)를 사용하여 미세 조정하고, SHAPley 값 기반 일관성 측정(CC SHAP)을 통해 예측과 설명의 일관성을 평가합니다. 연구 결과, Llama 모델은 높은 CC SHAP 점수를 보이며 예측과 설명의 일관성이 높지만 예측 정확도는 낮았고, Wizard 모델은 높은 예측 정확도를 보였지만 CC SHAP 점수는 낮았습니다. 이는 LLM의 정확한 예측뿐 아니라 예측과 일치하는 신뢰할 수 있고 일관된 설명의 중요성을 강조합니다.