Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GRPO Privacy Is at Risk: A Membership Inference Attack Against Reinforcement Learning With Verifiable Rewards

Created by
  • Haebom
Category
Empty

저자

Yule Liu, Heyi Zhang, Jinyi Zheng, Zhen Sun, Zifan Peng, Tianshuo Cong, Yilong Yang, Xinlei He, Zhuo Ma

Divergence-in-Behavior Attack (DIBA): Membership Inference in Reinforcement Learning with Verifiable Rewards

개요

본 논문은 대규모 언어 모델(LLM)의 훈련 단계에서 발생할 수 있는 개인 정보 침해 위험, 특히 강화 학습 기반의 훈련 방식(Reinforcement Learning with Verifiable Rewards, RLVR)에서 발생하는 멤버십 추론 공격(Membership Inference Attacks, MIAs)에 초점을 맞춘 연구를 소개합니다. RLVR의 고유한 특성(자체 생성 응답에 의존하는 훈련 방식)으로 인해, 특정 응답의 기억 여부와 관계없이 주어진 프롬프트가 미세 조정에 사용되었는지를 추론하는 새로운 방식의 멤버십 추론 공격이 필요합니다. 이에 따라, 본 논문은 RLVR에 특화된 멤버십 추론 프레임워크인 Divergence-in-Behavior Attack (DIBA)를 제안합니다. DIBA는 모델의 동작 변화를 활용하며, advantage-side improvement (정확성 향상 등) 및 logit-side divergence (정책 변화 등)를 측정하여 공격을 수행합니다. 다양한 설정에서의 실험을 통해 DIBA의 성능을 검증하고, 기존의 방법론보다 우수함을 입증합니다. 또한, 공격이 방어적인 조치에도 강건함을 보입니다.

시사점, 한계점

시사점:
RLVR 기반 LLM 훈련의 프라이버시 취약점을 체계적으로 분석한 최초의 연구입니다.
RLVR 환경에서 훈련 데이터 노출을 행동 변화를 통해 추론할 수 있음을 입증했습니다.
DIBA는 기존 멤버십 추론 공격보다 높은 성능을 보이며, 다양한 환경에서 효과적입니다.
DIBA는 방어적인 조치에도 강건합니다.
한계점:
본 논문에서 구체적인 한계점은 명시되지 않았습니다.
👍