Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models
Created by
Haebom
Category
Empty
저자
Kunhao Li, Wenhao Li, Di Wu, Lei Yang, Jun Bai, Ju Jia, Jason Xue
개요
멀티모달 대규모 언어 모델(MLLM)은 텍스트 및 비전과 같은 입력을 통합하여 실제 응용 분야로 확장됩니다. 그러나 광범위한 지식 능력으로 인해 개인 정보 유출, 유해성 완화 및 지적 재산권 침해에 대한 우려가 커지고 있습니다. 머신 언러닝(MU)은 전체 모델 유틸리티를 유지하면서 대상 지식을 선택적으로 잊는 실용적인 솔루션을 제공합니다. 본 연구에서는 MLLM에 적용할 때 기존의 뉴런 편집 기반 MU 접근 방식이 직면한 두 가지 근본적인 문제점을 해결하고자 합니다. (1) 기존의 점별 귀속 방법이 서로 다른 모달리티를 연결하는 구조화된 레이어별 정보 흐름을 포착하지 못하여 모달리티 전반에 걸쳐 잊혀짐이 일관되지 않다는 점, (2) 중요한 추론 경로를 지원하는 민감한 뉴런이 제거되어 일반화 능력이 저하된다는 점입니다. 이러한 한계를 완화하기 위해 본 연구에서는 MU를 위한 멀티모달 영향력 있는 뉴런 경로 편집기(MIP-Editor)를 제안합니다. 제안된 방법은 잊혀짐 집합 지식을 인코딩하는 데 책임이 있는 영향력 있는 뉴런 경로를 식별하기 위해 모달리티별 귀속 점수를 도입하고 표현 왜곡을 통해 영향력 있는 경로를 인식하는 뉴런 편집을 적용합니다. 이 전략은 또한 모델의 일반적인 기능을 유지하면서 모달리티 전반에 걸쳐 효과적이고 조정된 잊혀짐을 가능하게 합니다. 실험 결과, MIP-Editor는 멀티모달 작업에서 최대 87.75%의 잊혀짐 비율과 일반 지식 유지율 최대 54.26% 향상으로 우수한 언러닝 성능을 달성했습니다. 텍스트 작업에서 MIP-Editor는 최대 80.65%의 잊혀짐을 달성하고 일반 성능의 77.9%를 유지합니다.
시사점, 한계점
•
시사점:
◦
MIP-Editor는 멀티모달 작업에서 우수한 언러닝 성능을 달성하여 최대 87.75%의 잊혀짐 비율을 보였습니다.
◦
일반 지식 유지율을 최대 54.26% 향상시켜 모델의 일반화 능력을 유지했습니다.
◦
텍스트 작업에서도 높은 잊혀짐 비율(최대 80.65%)과 높은 일반 성능 유지율(77.9%)을 달성했습니다.
◦
모달리티별 귀속 점수와 표현 왜곡을 활용하여 모달리티 간의 일관된 잊혀짐을 가능하게 했습니다.