Phishing 이메일은 현실적인 언어와 적응형 전술을 사용하여 인간의 신뢰를 악용하고 자동 필터를 회피하며 온라인 통신에 지속적인 문제를 제기합니다. GPT-4 및 LLaMA-3-8B와 같은 대규모 언어 모델(LLM)은 텍스트 분류에서 강력한 정확도를 달성하지만, 보안 시스템에 배포하려면 벤치마크 성능을 넘어 신뢰성을 평가해야 합니다. 이 연구는 신뢰도 보정 프레임워크(TCF)를 도입하여 보정, 일관성 및 견고성의 세 가지 차원에서 피싱 탐지기를 평가하는 재현 가능한 방법론을 제시합니다. 이러한 구성 요소는 TCI(Trustworthiness Calibration Index)라는 제한된 지수로 통합되고, 데이터 세트 전반의 신뢰성 안정성을 정량화하는 CDS(Cross-Dataset Stability) 메트릭으로 보완됩니다. SecureMail 2025, Phishing Validation 2024, CSDMC2010, Enron-Spam, Nazario와 같은 5개의 코퍼스에 대해 DeBERTa-v3-base, LLaMA-3-8B 및 GPT-4를 사용하여 수행된 실험 결과, GPT-4가 가장 강력한 전체 신뢰 프로파일을 달성했으며, LLaMA-3-8B, DeBERTa-v3-base 순으로 나타났습니다. 통계 분석에 따르면 신뢰성은 원시 정확도와 독립적으로 변동하며, 실제 배포를 위해 신뢰 인식 평가가 중요하다는 점을 강조합니다. 제안된 프레임워크는 LLM 기반 피싱 탐지에서 모델 신뢰성을 평가하기 위한 투명하고 재현 가능한 기반을 구축합니다.