언어 모델의 특정 정보 수정 (언러닝, 편향 제거, 모델 편집 등)은 모델의 동작을 개선하고 지식을 최신 상태로 유지하는 데 중요한 방법이다. 이러한 수정 작업은 특정 정보 (예: 바이러스학 콘텐츠 제거)를 변경하는 것을 목표로 하지만, 관련 없는 영역 (예: 알레르기)으로도 파급 효과가 발생하며, 이를 "리플 효과"라고 한다. 본 연구에서는 모든 모델 편집 작업에서 리플 효과를 측정할 수 있는 Q&A 데이터세트를 자동으로 생성하는 도구인 RippleBench-Maker를 제시한다. RippleBench-Maker는 Wikipedia 기반 RAG 파이프라인(WikiRAG)을 사용하여 목표 개념(예: 언러닝되는 지식)으로부터 다양한 의미적 거리에 있는 객관식 질문을 생성한다. 이 프레임워크를 사용하여, 일반적인 언러닝 벤치마크인 WMDP(Weapons of Mass Destruction Paper) 데이터세트에서 파생된 RippleBench-Bio 벤치마크를 구축한다. 우리는 8가지 최첨단 언러닝 방법을 평가하고, 언러닝된 지식에서 점점 더 멀어지는 주제에 대해 모든 방법이 상당한 정확도 감소를 보이며, 각기 다른 전파 프로파일을 나타내는 것을 발견했다. 지속적인 연구를 지원하기 위해, 우리는 즉석 리플 효과 평가를 위한 코드베이스와 RippleBench-Bio 벤치마크를 공개한다.