# Probe-Geometry Alignment: Erasing the Cross-Sequence Memorization Signature Below Chance

### 저자

Anamika Paul Rupa, Anietie Andy

### 💡 개요

본 연구는 대규모 언어 모델(LLM)의 행동적 망각(behavioural unlearning) 후에도 남아있는 내부적인 기억 흔적을 복구하는 공격에 주목합니다. 연구진은 이러한 기억 흔적이 모델의 특정 영역에 존재하며, 모델 성능 저하 없이 외과적으로 제거될 수 있음을 보여줍니다. 이를 위해 'leave-one-out' 교차 시퀀스 프로브(cross-sequence probe) 기법을 제안하여 기억 흔적이 다양한 데이터셋에 걸쳐 일반화되는지 테스트하고, '프로브-기하학적 정렬(Probe-Geometry Alignment, PGA)'이라는 새로운 제거 방법을 개발했습니다.

### 🔑 시사점 및 한계

- **기억 흔적의 존재 및 일반화 가능성 확인:** LLM이 학습된 데이터의 기억 흔적은 모델 스케일에 상관없이 일관되게 존재하며, 다양한 데이터셋에 걸쳐 일반화될 수 있음을 실험적으로 입증했습니다.

- **기억 흔적과 모델 능력의 분리 및 제거 가능성:** 기억 흔적을 나타내는 프로브 방향은 모델의 정보 재현 능력(recall)과는 인과적으로 분리 가능하며, PGA 기법을 통해 모델 성능 저하 없이 효과적으로 제거할 수 있음을 보여주었습니다.

- **PGA의 강력한 제거 성능 및 견고성:** PGA는 다양한 규모의 모델과 여러 종류의 적대적 프로브 공격에 대해 기억 흔적을 무작위 이하 수준으로 제거하는 뛰어난 성능을 보였으며, 재학습 공격에 대해서도 효과적인 방어력을 입증했습니다.

- **모델의 근본적인 표현 방식 이해:** 본 연구는 사전 학습된 표현 방식에서 기억 흔적이 나타나는 특정 영역을 식별하고, 이를 외과적으로 수정하는 방법을 제시함으로써 LLM의 내부 작동 방식에 대한 깊이 있는 이해를 제공합니다.

- **한계점:** 본 연구에서 제시된 PGA 기법은 각 깊이(depth)마다 단일 rank-one 업데이트를 적용하는 방식입니다. 이러한 방식으로 실제 거대 모델에서 모든 깊이에 대해 이러한 연산을 효율적으로 수행하는 데 있어 계산 비용 및 확장성 문제가 발생할 수 있습니다. 또한, PGA가 모든 유형의 기억 흔적이나 모든 망각 시나리오에 대해 동일하게 효과적일지는 추가적인 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2605.01699)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).