Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Potent but Stealthy: Rethink Profile Pollution against Sequential Recommendation via Bi-level Constrained Reinforcement Paradigm

Created by
  • Haebom
Category
Empty

저자

Jiajie Su, Zihan Nan, Yunshan Ma, Xiaobo Xia, Xiaohua Feng, Weiming Liu, Xiaolin Zheng, Chaochao Chen

개요

순차적 추천 시스템은 사용자 상호 작용 시퀀스를 통해 동적 사용자 의도를 활용하지만, 적대적 공격에 취약합니다. 기존 공격은 주로 데이터 오염에 의존하지만, 대규모 사용자 접근 또는 가짜 프로필이 필요하여 실용성이 부족합니다. 본 논문에서는 부분적인 사용자 상호 작용을 미묘하게 오염시켜 목표 오예측을 유도하는 프로필 오염 공격(Profile Pollution Attack, PPA)에 초점을 맞춥니다. 이전 PPA 방법은 i) 시퀀스 지평선 영향에 대한 과도한 의존으로 인해 아이템 전환에 대한 세분화된 방해가 제한되고, ii) 전체적인 수정으로 인해 감지 가능한 분포 변화가 발생한다는 두 가지 한계점을 가지고 있습니다. 이러한 문제를 해결하기 위해, 본 논문은 적대적 효능과 은밀성을 균형 있게 유지하기 위해 이중 레벨 최적화 프레임워크와 다중 보상 강화 학습을 결합한 제한된 강화 기반 공격 CREAT를 제안합니다. 먼저, 중요한 패턴을 반전시키기 위한 패턴 반전 보상과 불균형 공동 최적 운송을 통해 감지 가능한 변화를 최소화하기 위한 분포 일관성 보상을 통합하는 패턴 균형 보상 정책을 개발합니다. 그런 다음, 동적 장벽 제약 조건 및 그룹 공유 경험 재생을 통해 단계별 방해를 가능하게 하고 최소한의 탐지 가능성으로 목표 오염을 달성하는 제한된 그룹 상대 강화 학습 패러다임을 사용합니다. 광범위한 실험을 통해 CREAT의 효과를 입증했습니다.

시사점, 한계점

시사점:
사용자 프로필 오염 공격에 대한 새로운 접근 방식 제시
강화 학습 기반 공격 프레임워크인 CREAT 개발
패턴 균형 보상 정책 및 제한된 그룹 상대 강화 학습 도입
기존 PPA 방법의 한계점 극복
광범위한 실험을 통해 CREAT의 효과 입증
한계점:
논문에 구체적인 한계점 언급 없음.
👍