# Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation

### 저자

Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal

### 개요

대규모 데이터셋으로 학습된 대규모 언어 모델(LLM)은 개인 정보 및 유해 콘텐츠와 같은 민감한 정보를 의도치 않게 습득할 수 있으며, 특히 이미지와 텍스트 정보를 통합하는 다중 모달 LLM(MLLM)에서 이러한 위험이 더욱 커집니다. 공격자는 다중 모달 프롬프트를 통해 이러한 지식을 악용하여 민감한 정보를 추출할 수 있습니다. MLLM에서 이러한 정보를 효과적으로 잊도록 하는(타겟 삭제 학습) 방법을 평가하기 위해서는 고품질의 잘 주석이 달린 이미지-텍스트 쌍을 생성해야 합니다. 기존의 삭제 학습 연구는 텍스트에 중점을 두었지만, 다중 모달 삭제 학습은 아직 미개척 분야입니다. 본 연구는 이러한 간극을 해소하기 위해, 다중 모달 삭제 학습 벤치마크인 UnLOK-VQA(Unlearning Outside Knowledge VQA)와 MLLM에서 특정 다중 모달 지식을 삭제하는 방법을 평가하기 위한 공격 및 방어 프레임워크를 제시합니다.  일반화 및 특이성을 테스트하기 위해 다양한 근접도의 샘플을 생성하는 자동화된 파이프라인을 사용하여 시각적 질문 응답 데이터셋을 확장하고, 고품질을 유지하기 위해 수동 필터링을 수행했습니다. 그런 다음 숨겨진 상태의 해석성을 활용하는 새로운 화이트박스 방법을 포함하여 7가지 공격(화이트박스 4가지, 블랙박스 3가지)에 대한 6가지 방어 목표를 평가했습니다. 연구 결과, 다중 모달 공격이 텍스트 또는 이미지 전용 공격보다 성능이 뛰어나며, 가장 효과적인 방어는 내부 모델 상태에서 답변 정보를 제거하는 것임을 보여줍니다. 또한, 더 큰 모델은 편집 후 강건성이 더 크다는 것을 보여주어 규모가 안전성을 향상시킨다는 것을 시사합니다. UnLOK-VQA는 MLLM에서 삭제 학습을 발전시키기 위한 엄격한 벤치마크를 제공합니다.

### 시사점, 한계점

- **시사점:**

    - 다중 모달 LLM에서의 민감한 정보 삭제 학습(unlearning)의 중요성을 강조하고, 이를 위한 새로운 벤치마크 UnLOK-VQA를 제시함.

    - 다중 모달 공격이 텍스트 또는 이미지 전용 공격보다 효과적임을 보임.

    - 내부 모델 상태에서 답변 정보를 제거하는 것이 가장 효과적인 방어임을 밝힘.

    - 모델 규모가 클수록 삭제 학습 후 강건성이 증가함을 보임.

- **한계점:**

    - UnLOK-VQA 데이터셋의 규모 및 다양성에 대한 추가적인 연구가 필요할 수 있음.

    - 평가된 공격 및 방어 방법의 종류가 제한적일 수 있음.  더 다양한 공격 및 방어 기법에 대한 추가적인 연구가 필요할 수 있음.

    - 실제 환경에서의 일반화 성능에 대한 추가적인 검증이 필요할 수 있음.

[PDF 보기](https://arxiv.org/pdf/2505.01456)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).