본 논문은 대규모 언어 모델(LLM) 기반 추천 시스템(RecSys)의 안전 취약성에 대한 연구를 다룹니다. 기존 강화 학습(RL) 기반 공격 방식의 한계를 지적하며, LLM의 인간과 유사한 의사결정 능력을 활용한 새로운 공격 프레임워크인 CheatAgent를 제안합니다. CheatAgent는 최소한의 입력 수정으로 최대 효과를 내는 삽입 위치를 식별하고, LLM 기반 에이전트를 이용해 적대적 섭동을 생성합니다. 피해 RecSys의 피드백을 통해 반복적으로 공격 전략을 개선하는 프롬프트 튜닝 기법을 활용하여 생성된 섭동의 질을 향상시킵니다. 세 개의 실제 데이터셋을 이용한 실험을 통해 제안된 공격 방법의 효과를 보여줍니다.
시사점, 한계점
•
시사점: LLM 기반 RecSys의 안전 취약성을 효과적으로 공격할 수 있는 새로운 방법론 제시. LLM의 강점을 활용하여 기존 공격 방식의 한계를 극복. 프롬프트 튜닝을 통한 공격 전략 개선 가능성 제시.
•
한계점: 제안된 방법론의 일반화 가능성에 대한 추가 연구 필요. 다양한 종류의 LLM 및 RecSys에 대한 적용성 평가 필요. 실제 세계 시나리오에서의 공격 성공률 및 영향 분석 필요. 윤리적 및 사회적 함의에 대한 논의 부족.