Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

PhreshPhish: A Real-World, High-Quality, Large-Scale Phishing Website Dataset and Benchmark

Created by
  • Haebom

저자

Thomas Dalton, Hemanth Gowda, Girish Rao, Sachin Pargi, Alireza Hadj Khodabakhshi, Joseph Rombs, Stephan Jou, Manish Marwah

개요

본 논문은 기존 피싱 웹사이트 탐지 모델의 성능 평가를 저해하는 대규모 고품질 데이터셋 및 벤치마크의 부재 문제를 해결하기 위해, 대규모 고품질 피싱 웹사이트 데이터셋인 PhreshPhish를 제안합니다. PhreshPhish는 기존 데이터셋보다 훨씬 크고 데이터 오류율이 낮으며, 데이터 누출 및 비현실적인 기저 비율 문제를 최소화하여 현실적인 모델 평가를 위한 포괄적인 벤치마크 데이터셋을 제공합니다. 여러 솔루션 접근 방식을 훈련하고 평가하여 벤치마크 집합에 대한 기준 성능을 제공하며, 이를 통해 현실적이고 표준화된 모델 비교를 가능하게 하고 피싱 탐지 분야의 발전을 촉진할 것으로 기대합니다. 데이터셋과 벤치마크는 Hugging Face에서 공개됩니다.

시사점, 한계점

시사점:
대규모 고품질 피싱 웹사이트 데이터셋 및 현실적인 벤치마크 제공을 통해 피싱 탐지 모델의 성능 평가 및 향상에 기여.
데이터 누출 및 비현실적인 기저 비율 문제 해결을 통한 더욱 정확하고 신뢰할 수 있는 모델 개발 가능.
표준화된 벤치마크를 통한 다양한 모델의 성능 비교 및 공정한 평가 가능.
피싱 탐지 분야의 연구 발전 촉진.
한계점:
PhreshPhish 데이터셋의 장기적인 유지보수 및 업데이트 계획이 명시적으로 제시되지 않음.
다양한 유형의 피싱 공격에 대한 데이터셋의 대표성에 대한 추가적인 분석 필요.
제시된 벤치마크가 모든 종류의 피싱 탐지 모델에 적합한지에 대한 추가적인 검증 필요.
👍