Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Language Models May Verbatim Complete TextThey Were Not Explicitly Trained On

Created by
  • Haebom
Category
Empty

저자

Ken Ziyu Liu, Christopher A. Choquette-Choo, Matthew Jagielski, Peter Kairouz, Sanmi Koyejo, Percy Liang, Nicolas Papernot

개요

본 논문은 대규모 언어 모델(LLM)의 학습 데이터에 특정 텍스트가 포함되었는지 확인하는 기존의 완성 테스트의 취약성을 다룬다. 기존의 완성 테스트는 n-gram 중복을 기반으로 멤버십을 정의하지만, 이러한 방법은 조작될 수 있음을 보여준다. 연구진은 n-gram 기반 멤버십 정의가 실패하는 여러 자연적인 사례(정확한 중복, 유사 중복, 짧은 중복 포함)를 제시하며, LLM을 재학습하여 완성된 샘플을 제거한 후에도 완성 테스트가 성공하는 경우를 발견했다. 이를 통해 n-gram 기반 멤버십 정의에 적합한 단일 n 값을 찾기 어렵다는 점을 강조한다. 결론적으로, 연구진은 어떤 합리적인 n 값에도 대상 시퀀스를 포함하지 않고도 완성되도록 하는 적대적 데이터셋을 설계하여 n-gram 멤버십의 부적절성을 보여주고, 멤버십 정의가 학습 알고리즘에 사용 가능한 보조 정보를 고려하지 못한다는 점을 시사한다.

시사점, 한계점

시사점:
기존 n-gram 기반 LLM 학습 데이터 멤버십 검증 방법의 취약성을 밝힘.
LLM 학습 데이터 멤버십 검증을 위한 새로운 접근 방식의 필요성 제기.
LLM 학습 알고리즘이 보조 정보를 활용하는 방식에 대한 이해 필요성 강조.
적대적 데이터셋 생성을 통해 LLM 완성 테스트의 안전성 평가에 기여.
한계점:
제시된 적대적 데이터셋의 일반화 성능에 대한 추가 연구 필요.
다양한 LLM 아키텍처와 학습 데이터에 대한 추가 실험 필요.
더욱 강력하고 안전한 LLM 학습 데이터 멤버십 검증 방법에 대한 구체적인 제안 부재.
👍