Sign In

Improving Phishing Email Detection Performance of Small Large Language Models

Created by
  • Haebom
Category
Empty

저자

Zijie Lin, Zikang Liu, Hanbo Fan

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 피싱 이메일 탐지 연구에서, 계산 비용을 줄이기 위해 소규모 매개변수(약 30억 개)를 가진 LLM의 효과성을 조사했습니다. 소규모 LLM은 성능이 저조하다는 문제점을 해결하기 위해, 프롬프트 엔지니어링, 설명 증강 미세 조정, 모델 앙상블 등의 방법을 제시하고 실험을 통해 검증했습니다. 그 결과, SpamAssassin과 CEAS_08 데이터셋에서 정확도와 F1 점수를 크게 향상시켰으며, 여러 미지의 피싱 데이터셋에서도 강력한 전이 성능을 보이며 기존 기준 모델들을 능가하고 표준 크기의 LLM에 근접하는 성능을 달성했습니다.

시사점, 한계점

시사점:
소규모 LLM을 활용하여 피싱 이메일 탐지의 계산 비용을 효과적으로 줄일 수 있음을 보여줌.
제시된 프롬프트 엔지니어링, 설명 증강 미세 조정, 모델 앙상블 기법들이 소규모 LLM의 성능 향상에 효과적임을 실험적으로 증명.
미세 조정된 모델의 우수한 전이 성능을 통해 다양한 피싱 데이터셋에 적용 가능성을 확인.
기존 기준 모델들을 능가하고 표준 크기의 LLM에 근접하는 성능 달성.
한계점:
연구에 사용된 소규모 LLM의 매개변수 크기(약 30억 개)가 여전히 상당한 규모이며, 더욱 작은 LLM에 대한 연구가 필요할 수 있음.
사용된 데이터셋의 종류 및 범위가 제한적일 수 있으며, 더욱 다양한 데이터셋을 이용한 추가 연구가 필요할 수 있음.
제시된 방법들의 일반화 가능성에 대한 추가적인 검증이 필요할 수 있음.
👍