Sequential Recommenders는 사용자 상호작용 시퀀스를 통해 동적 사용자 의도를 활용하지만, 적대적 공격에 취약하다. 이 논문은 실용성이 부족한 기존 데이터 오염 공격과 달리, 부분적인 사용자 상호작용을 미묘하게 오염시켜 목표한 오예측을 유도하는 Profile Pollution Attack (PPA)에 초점을 맞춘다. 기존 PPA의 한계점을 해결하기 위해, 본 논문은 적대적 효과와 은밀성을 균형 있게 유지하기 위해 바이 레벨 최적화 프레임워크와 멀티 리워드 강화 학습을 결합한 CREAT (Constrained Reinforcement Driven Attack)를 제안한다. CREAT는 패턴 반전 보상과 분포 일관성 보상을 통합한 Pattern Balanced Rewarding Policy와, 단계별 교란을 가능하게 하는 Constrained Group Relative Reinforcement Learning 패러다임을 활용한다.
시사점, 한계점
•
시사점:
◦
실용적인 Profile Pollution Attack (PPA) 방식을 제안하여, 추천 시스템의 보안 취약점을 공격.
◦
과도한 의존성 및 탐지 가능성을 줄이기 위해, 패턴 반전과 분포 일관성을 고려한 새로운 공격 전략 제시.