순차적 추천 시스템은 사용자 상호 작용 시퀀스를 통해 동적 사용자 의도를 활용하지만, 적대적 공격에 취약합니다. 기존 공격은 주로 데이터 오염에 의존하지만, 대규모 사용자 접근 또는 가짜 프로필이 필요하여 실용성이 부족합니다. 본 논문에서는 부분적인 사용자 상호 작용을 미묘하게 오염시켜 목표 오예측을 유도하는 프로필 오염 공격(Profile Pollution Attack, PPA)에 초점을 맞춥니다. 이전 PPA 방법은 i) 시퀀스 지평선 영향에 대한 과도한 의존으로 인해 아이템 전환에 대한 세분화된 방해가 제한되고, ii) 전체적인 수정으로 인해 감지 가능한 분포 변화가 발생한다는 두 가지 한계점을 가지고 있습니다. 이러한 문제를 해결하기 위해, 본 논문은 적대적 효능과 은밀성을 균형 있게 유지하기 위해 이중 레벨 최적화 프레임워크와 다중 보상 강화 학습을 결합한 제한된 강화 기반 공격 CREAT를 제안합니다. 먼저, 중요한 패턴을 반전시키기 위한 패턴 반전 보상과 불균형 공동 최적 운송을 통해 감지 가능한 변화를 최소화하기 위한 분포 일관성 보상을 통합하는 패턴 균형 보상 정책을 개발합니다. 그런 다음, 동적 장벽 제약 조건 및 그룹 공유 경험 재생을 통해 단계별 방해를 가능하게 하고 최소한의 탐지 가능성으로 목표 오염을 달성하는 제한된 그룹 상대 강화 학습 패러다임을 사용합니다. 광범위한 실험을 통해 CREAT의 효과를 입증했습니다.