본 논문은 대규모 언어 모델(LLM)의 훈련 단계에서 발생할 수 있는 개인 정보 침해 위험, 특히 강화 학습 기반의 훈련 방식(Reinforcement Learning with Verifiable Rewards, RLVR)에서 발생하는 멤버십 추론 공격(Membership Inference Attacks, MIAs)에 초점을 맞춘 연구를 소개합니다. RLVR의 고유한 특성(자체 생성 응답에 의존하는 훈련 방식)으로 인해, 특정 응답의 기억 여부와 관계없이 주어진 프롬프트가 미세 조정에 사용되었는지를 추론하는 새로운 방식의 멤버십 추론 공격이 필요합니다. 이에 따라, 본 논문은 RLVR에 특화된 멤버십 추론 프레임워크인 Divergence-in-Behavior Attack (DIBA)를 제안합니다. DIBA는 모델의 동작 변화를 활용하며, advantage-side improvement (정확성 향상 등) 및 logit-side divergence (정책 변화 등)를 측정하여 공격을 수행합니다. 다양한 설정에서의 실험을 통해 DIBA의 성능을 검증하고, 기존의 방법론보다 우수함을 입증합니다. 또한, 공격이 방어적인 조치에도 강건함을 보입니다.