Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Constructing and Benchmarking: a Labeled Email Dataset for Text-Based Phishing and Spam Detection Framework

Created by
  • Haebom
Category
Empty

저자

Rebeka Toth, Tamas Bisztray, Richard Dubniczky

개요

본 연구는 피싱 및 스팸 이메일 문제를 해결하기 위해, 인간 및 LLM(대규모 언어 모델)이 생성한 내용을 명확히 구분하는 포괄적인 이메일 데이터 세트를 제시합니다. 각 이메일은 범주, 감성적 호소력, 근본적인 동기로 주석 처리되었습니다. 연구는 이러한 감성 및 동기적 단서를 식별하는 LLM의 능력을 평가하고, 데이터 세트 전체를 주석 처리하기 위해 가장 신뢰할 수 있는 모델을 선택했습니다. 또한, 의미와 의도를 유지하면서 다양한 LLM을 사용하여 이메일을 재작성하여 분류의 견고성을 평가했습니다. 전문가가 레이블한 정답을 사용하여 원본 및 재작성된 이메일에 대한 최첨단 LLM의 성능을 평가했습니다. 연구 결과는 강력한 피싱 탐지 능력을 보여주었지만, 스팸과 합법적인 이메일을 구별하는 데 지속적인 어려움이 있음을 드러냈습니다.

시사점, 한계점

시사점:
AI 기반 이메일 보안 시스템 개선에 기여.
피싱 이메일 탐지 능력을 강조.
오픈 사이언스를 위한 모든 코드, 템플릿, 리소스 제공.
한계점:
스팸과 합법적인 이메일 구별에 어려움.
👍