Lost in Modality: Evaluating the Effectiveness of Text-Based Membership Inference Attacks on Large Multimodal Models

작성자

Haebom

카테고리

Empty

저자

Ziyi Tong, Feifei Sun, Le Minh Nguyen

💡 개요

본 연구는 대규모 멀티모달 모델(MLLMs)에서 텍스트 기반 멤버십 추론 공격(MIA)의 효과를 처음으로 포괄적으로 평가합니다. 기존 LLM에서 널리 사용되는 로그 확률 기반 MIA를 멀티모달 환경으로 확장하여, 비전-텍스트(V+T) 및 텍스트 전용(T-only) 설정에서 그 성능을 비교 분석했습니다. 실험 결과, 분포 내(in-distribution) 설정에서는 두 방식 간 성능 차이가 크지 않으나, 분포 외(out-of-distribution) 설정에서는 시각적 입력이 정규화(regularization) 효과를 발휘하여 멤버십 신호를 효과적으로 은닉하는 것으로 나타났습니다.

🔑 시사점 및 한계

•

대규모 멀티모달 모델에서도 텍스트 기반 MIA는 잠재적인 학습 데이터 유출 위험을 평가하는 데 유용할 수 있습니다.

•

분포 외(out-of-distribution) 데이터에 대한 MIA 공격의 효과는 시각적 정보에 의해 크게 저해될 수 있습니다.

•

본 연구는 시각적 입력이 MIA 공격에 대한 정규화 효과를 가질 수 있음을 시사하며, 이는 MLLM의 개인 정보 보호 설계에 중요한 고려 사항이 될 수 있습니다.

•

향후 연구에서는 다양한 멀티모달 모델 아키텍처와 공격 기법에 대한 보다 광범위한 평가가 필요하며, 시각적 입력이 MIA 공격을 효과적으로 은닉하는 메커니즘에 대한 심층적인 분석이 요구됩니다.

PDF 보기

Made with Slashpage