Scam Shield: Multi-Model Voting and Fine-Tuned LLMs Against Adversarial Attacks
Created by
Haebom
Category
Empty
저자
Chen-Wei Chang, Shailik Sarkar, Hossein Salemi, Hyungmin Kim, Shutonu Mitra, Hemant Purohit, Fengxiu Zhang, Michin Hong, Jin-Hee Cho, Chang-Tien Lu
개요
본 논문은 악의적인 메시지를 회피하는 스캠 탐지를 위한 계층적 스캠 탐지 시스템(HSDS)을 제안한다. HSDS는 경량의 다중 모델 투표 프런트 엔드와, 적대적 공격에 대한 정확성과 견고성을 향상시키기 위해 미세 조정된 LLaMA 3.1 8B Instruct 백 엔드를 결합한다. 앙상블 분류기가 다수결 투표를 통해 예비 예측을 제공하고, 모호한 사례는 미세 조정된 모델로 에스컬레이션된다. 이 모델은 오분류를 줄이기 위해 적대적 훈련으로 최적화되었다. 실험 결과, 이 계층적 설계는 적대적 스캠 탐지를 개선하고 LLM에서 대부분의 사례를 라우팅하여 추론 시간을 단축하며, 기존의 머신러닝 기준선과 독점 LLM 기준선보다 성능이 우수했다.
시사점, 한계점
•
시사점:
◦
하이브리드 투표 메커니즘과 적대적 미세 조정을 통한 LLM의 강화는 진화하는 스캠 전술에 효과적이다.