# Probe-Geometry Alignment: Erasing the Cross-Sequence Memorization Signature Below Chance

### 저자

Anamika Paul Rupa, Anietie Andy

### 💡 개요

본 논문은 대규모 언어 모델(LLM)에서 행동적 망각(behavioural unlearning) 후에도 남아있는 내부 기억 흔적을 탐지하고 제거하는 방법을 제안합니다. 제안된 'Probe-Geometry Alignment (PGA)' 기법은 특정 순서를 제외하고 일반화되는 기억 흔적을 측정하는 독자적인 프로토콜을 통해, 기억 흔적을 제거해도 모델 성능 저하가 거의 없음을 입증합니다.

### 🔑 시사점 및 한계

- **기억 흔적의 존재와 분리 가능성:** LLM은 망각 후에도 내부 표현에 기억 흔적을 남기며, 이 흔적은 모델의 일반적인 기억 능력과는 인과적으로 분리 가능합니다.

- **PGA의 효과성:** Probe-Geometry Alignment (PGA)는 간단한 행렬 연산을 통해 기억 흔적을 무작위 이하 수준으로 제거하며, 다양한 적대적 공격에도 강건성을 보입니다.

- **한계점 및 향후 과제:** 제안된 PGA 기법은 특정 모델 아키텍처 및 데이터셋에 대한 실험 결과를 제시하며, 더 넓은 범위의 모델과 복잡한 망각 시나리오에 대한 일반화 가능성 및 효율성에 대한 추가 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2605.01699)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).