ParaPO: Aligning Language Models to Reduce Verbatim Reproduction of Pre-training Data
Created by
Haebom
저자
Tong Chen, Faeze Brahman, Jiacheng Liu, Niloofar Mireshghallah, Weijia Shi, Pang Wei Koh, Luke Zettlemoyer, Hannaneh Hajishirzi
개요
본 논문은 사전 훈련 데이터의 내용을 그대로 재현하는 언어 모델(LM)의 문제점을 해결하기 위해, 훈련 후 처리 기법인 Paraphrase Preference Optimization (ParaPO)를 제안합니다. ParaPO는 LM이 사전 훈련 데이터의 원본 내용보다 바꿔 말한 내용을 선호하도록 미세 조정하여 의도하지 않은 내용 재현을 줄이는 것을 목표로 합니다. 저명한 인용구를 적절하게 재현하는 능력을 유지하기 위해 시스템 프롬프트를 사용하는 ParaPO 변형도 제시합니다. Llama3.1-8B 및 Tulu3-8B 모델에 대한 실험 결과, ParaPO는 다양한 데이터셋에서 기존의 unlearning 기법보다 효과적으로 내용 재현을 줄이는 것으로 나타났습니다. 특히, 시스템 프롬프트를 활용한 ParaPO는 저명한 인용구의 재현 능력을 유지하면서 의도하지 않은 내용 재현을 감소시키는 효과를 보였습니다.
시사점, 한계점
•
시사점:
◦
기존의 unlearning 방법보다 효과적으로 언어 모델의 내용 재현 문제를 해결할 수 있는 새로운 방법(ParaPO)을 제시.
◦
시스템 프롬프트를 활용하여 원하는 컨텍스트에서 내용 재현을 제어할 수 있는 가능성을 제시.
◦
저작권, 표절, 개인 정보 보호 및 창의성 문제 해결에 기여할 수 있는 잠재력을 가짐.
•
한계점:
◦
ParaPO의 효과는 특정 모델과 데이터셋에 대해서만 검증되었으므로, 다른 모델이나 데이터셋에 대한 일반화 가능성은 추가 연구가 필요.