Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Trustworthiness Calibration Framework for Phishing Email Detection Using Large Language Models

Created by
  • Haebom
Category
Empty

저자

Daniyal Ganiuly, Assel Smaiyl

개요

Phishing 이메일은 현실적인 언어와 적응형 전술을 사용하여 인간의 신뢰를 악용하고 자동 필터를 회피하며 온라인 통신에 지속적인 문제를 제기합니다. GPT-4 및 LLaMA-3-8B와 같은 대규모 언어 모델(LLM)은 텍스트 분류에서 강력한 정확도를 달성하지만, 보안 시스템에 배포하려면 벤치마크 성능을 넘어 신뢰성을 평가해야 합니다. 이 연구는 신뢰도 보정 프레임워크(TCF)를 도입하여 보정, 일관성 및 견고성의 세 가지 차원에서 피싱 탐지기를 평가하는 재현 가능한 방법론을 제시합니다. 이러한 구성 요소는 TCI(Trustworthiness Calibration Index)라는 제한된 지수로 통합되고, 데이터 세트 전반의 신뢰성 안정성을 정량화하는 CDS(Cross-Dataset Stability) 메트릭으로 보완됩니다. SecureMail 2025, Phishing Validation 2024, CSDMC2010, Enron-Spam, Nazario와 같은 5개의 코퍼스에 대해 DeBERTa-v3-base, LLaMA-3-8B 및 GPT-4를 사용하여 수행된 실험 결과, GPT-4가 가장 강력한 전체 신뢰 프로파일을 달성했으며, LLaMA-3-8B, DeBERTa-v3-base 순으로 나타났습니다. 통계 분석에 따르면 신뢰성은 원시 정확도와 독립적으로 변동하며, 실제 배포를 위해 신뢰 인식 평가가 중요하다는 점을 강조합니다. 제안된 프레임워크는 LLM 기반 피싱 탐지에서 모델 신뢰성을 평가하기 위한 투명하고 재현 가능한 기반을 구축합니다.

시사점, 한계점

시사점:
GPT-4는 다른 모델(LLaMA-3-8B, DeBERTa-v3-base)에 비해 가장 강력한 신뢰 프로필을 보였습니다.
신뢰성은 원시 정확도와 독립적으로 변동하므로, 실제 배포를 위해서는 신뢰 인식 평가가 중요합니다.
Trustworthiness Calibration Framework(TCF)는 LLM 기반 피싱 탐지 모델의 신뢰성을 평가하기 위한 투명하고 재현 가능한 방법론을 제공합니다.
Cross-Dataset Stability (CDS) 메트릭은 데이터세트 간의 신뢰성 안정성을 평가합니다.
한계점:
해당 논문에서 한계점에 대한 직접적인 언급은 없음.
👍