본 논문은 대규모 언어 모델(LLM)이 외부 데이터를 쉽게 통합하는 RAG(Retrieval Augmented Generation)의 데이터 무단 사용 문제에 대한 해결책을 제시한다. RAG-DI(RAG Dataset Inference)라는 새로운 문제 정의를 제시하고, 현실적인 벤치마킹을 위한 새로운 데이터셋과 기준 모델들을 소개한다. 또한, LLM 워터마킹 기반의 RAG-DI 방법인 Ward를 제안하며, 이 방법이 기존 방법들보다 높은 정확도, 효율성, 그리고 강건성을 보임을 실험적으로 증명한다. Ward는 데이터 소유자에게 데이터셋의 RAG 코퍼스 내 오용에 대한 엄격한 통계적 보장을 제공한다. 본 연구는 RAG-DI에 대한 향후 연구의 기반을 제공하고, LLM 워터마킹을 유망한 접근법으로 제시한다.