본 논문은 중요한 현실 세계의 응용 분야에서 강화 학습(RL)의 부상으로 인해 AI 시스템의 프라이버시에 대한 근본적인 재고가 필요하다는 주장을 제기한다. 기존의 프라이버시 프레임워크는 고립된 데이터 포인트를 보호하도록 설계되었지만, 시간적 패턴, 행동 전략 및 협업 역학에서 민감한 정보가 나타나는 순차적 의사 결정 시스템에는 부족하다. 연합 강화 학습(FedRL) 및 대규모 언어 모델(LLM)에서의 인간 피드백을 통한 강화 학습(RLHF)과 같은 현대적인 RL 패러다임은 기존 방법이 다루지 못하는 복잡하고, 상호 작용적이며, 맥락에 의존적인 학습 환경을 도입하여 이러한 문제를 악화시킨다. 이에 따라 본 논문은 다중 규모 보호, 행동 패턴 보호, 협업적 프라이버시 보존, 맥락 인식 적응이라는 네 가지 핵심 원칙에 기반한 새로운 프라이버시 패러다임을 주장한다. 이러한 원칙은 RL 시스템이 의료, 자율 주행 차량, LLM에 의해 구동되는 의사 결정 지원 시스템과 같은 고위험 영역에서 더욱 보편화됨에 따라 프라이버시, 유용성 및 해석 가능성 사이의 고유한 긴장을 드러낸다. 이러한 문제를 해결하기 위해 순차적 의사 결정 시스템에서 효과적인 프라이버시 보호를 가능하게 하는 새로운 이론적 프레임워크, 실용적인 메커니즘 및 엄격한 평가 방법론의 개발을 촉구한다.