Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis

Created by
  • Haebom
Category
Empty

저자

Alberick Euraste Djire, Abdoul Kader Kabore, Earl T. Barr, Jacques Klein, Tegawende F. Bissyande

개요

본 논문은 대규모 언어 모델(LLM)의 과도한 암기 현상을 검출하는 새로운 방법인 PEARL을 제안합니다. PEARL은 모델 내부 접근 없이 입력 섭동에 대한 LLM 성능 민감도를 평가하여 암기 여부를 판별합니다. 입력 섭동이 출력 일관성에 미치는 영향을 분석하여 진정한 일반화와 암기를 구분합니다. Pythia 오픈 모델을 대상으로 한 실험 결과, 모델이 학습된 정보를 단순히 반복하는 경우를 효과적으로 식별하는 견고한 프레임워크임을 보여줍니다. GPT 4o 모델에 적용한 결과, 성경 구절이나 HumanEval의 일반적인 코드와 같은 텍스트 암기 사례뿐 아니라 뉴욕 타임즈 기사와 같은 데이터가 특정 모델의 학습 데이터에 포함되었을 가능성을 제시하는 증거를 제공할 수 있음을 입증했습니다.

시사점, 한계점

시사점:
LLM의 암기 현상을 효과적으로 검출하는 새로운 방법 PEARL을 제시합니다.
모델 내부 접근 없이 암기 여부를 판별할 수 있습니다.
데이터 프라이버시, 지적 재산권, 모델 평가 신뢰성 향상에 기여할 수 있습니다.
다양한 LLM (Pythia, GPT-4o) 에서 암기 현상 검출 가능성을 보여줍니다.
한계점:
현재는 특정 모델에 대한 실험 결과만 제시되어, 다양한 LLM 아키텍처 및 크기에 대한 일반화 가능성은 추가 연구가 필요합니다.
PEARL이 모든 유형의 암기 현상을 완벽하게 검출한다는 보장은 없습니다. 새로운 암기 패턴이 등장할 수 있습니다.
입력 섭동의 종류와 강도에 따라 검출 성능이 달라질 수 있습니다. 최적의 섭동 전략에 대한 추가 연구가 필요합니다.
👍