RippleBench: Capturing Ripple Effects Using Existing Knowledge Repositories

Created by

Haebom

저자

Roy Rinberg, Usha Bhalla, Igor Shilov, Flavio P. Calmon, Rohit Gandikota

개요

언어 모델의 특정 정보 수정 (언러닝, 편향 제거, 모델 편집 등)은 모델의 동작을 개선하고 지식을 최신 상태로 유지하는 데 중요한 방법이다. 이러한 수정 작업은 특정 정보 (예: 바이러스학 콘텐츠 제거)를 변경하는 것을 목표로 하지만, 관련 없는 영역 (예: 알레르기)으로도 파급 효과가 발생하며, 이를 "리플 효과"라고 한다. 본 연구에서는 모든 모델 편집 작업에서 리플 효과를 측정할 수 있는 Q&A 데이터세트를 자동으로 생성하는 도구인 RippleBench-Maker를 제시한다. RippleBench-Maker는 Wikipedia 기반 RAG 파이프라인(WikiRAG)을 사용하여 목표 개념(예: 언러닝되는 지식)으로부터 다양한 의미적 거리에 있는 객관식 질문을 생성한다. 이 프레임워크를 사용하여, 일반적인 언러닝 벤치마크인 WMDP(Weapons of Mass Destruction Paper) 데이터세트에서 파생된 RippleBench-Bio 벤치마크를 구축한다. 우리는 8가지 최첨단 언러닝 방법을 평가하고, 언러닝된 지식에서 점점 더 멀어지는 주제에 대해 모든 방법이 상당한 정확도 감소를 보이며, 각기 다른 전파 프로파일을 나타내는 것을 발견했다. 지속적인 연구를 지원하기 위해, 우리는 즉석 리플 효과 평가를 위한 코드베이스와 RippleBench-Bio 벤치마크를 공개한다.