Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ParaPO: Aligning Language Models to Reduce Verbatim Reproduction of Pre-training Data

Created by
  • Haebom

저자

Tong Chen, Faeze Brahman, Jiacheng Liu, Niloofar Mireshghallah, Weijia Shi, Pang Wei Koh, Luke Zettlemoyer, Hannaneh Hajishirzi

개요

본 논문은 사전 훈련 데이터의 내용을 그대로 재현하는 언어 모델(LM)의 문제점을 해결하기 위해, 훈련 후 처리 기법인 Paraphrase Preference Optimization (ParaPO)를 제안합니다. ParaPO는 LM이 사전 훈련 데이터의 원본 내용보다 바꿔 말한 내용을 선호하도록 미세 조정하여 의도하지 않은 내용 재현을 줄이는 것을 목표로 합니다. 저명한 인용구를 적절하게 재현하는 능력을 유지하기 위해 시스템 프롬프트를 사용하는 ParaPO 변형도 제시합니다. Llama3.1-8B 및 Tulu3-8B 모델에 대한 실험 결과, ParaPO는 다양한 데이터셋에서 기존의 unlearning 기법보다 효과적으로 내용 재현을 줄이는 것으로 나타났습니다. 특히, 시스템 프롬프트를 활용한 ParaPO는 저명한 인용구의 재현 능력을 유지하면서 의도하지 않은 내용 재현을 감소시키는 효과를 보였습니다.

시사점, 한계점

시사점:
기존의 unlearning 방법보다 효과적으로 언어 모델의 내용 재현 문제를 해결할 수 있는 새로운 방법(ParaPO)을 제시.
시스템 프롬프트를 활용하여 원하는 컨텍스트에서 내용 재현을 제어할 수 있는 가능성을 제시.
저작권, 표절, 개인 정보 보호 및 창의성 문제 해결에 기여할 수 있는 잠재력을 가짐.
한계점:
ParaPO의 효과는 특정 모델과 데이터셋에 대해서만 검증되었으므로, 다른 모델이나 데이터셋에 대한 일반화 가능성은 추가 연구가 필요.
시스템 프롬프트를 사용하는 방법은 프롬프트 엔지니어링에 대한 의존도가 높을 수 있음.
내용 재현을 완전히 제거하는 것이 아니라 줄이는 것에 그치므로, 완벽한 해결책은 아님.
👍