Differentially Private Multimodal In-Context Learning

Created by

Haebom

저자

Ivoline C. Ngong, Zarreen Reza, Joseph P. Near

💡 개요

본 논문은 의료 영상이나 개인 사진과 같이 민감한 데이터를 다루는 비전-언어 모델(VLM)의 멀티모달 인컨텍스트 학습(in-context learning)에서 기존에 텍스트 기반으로만 가능했던 차등 프라이버시(differential privacy)의 한계를 극복하기 위한 'DP-MTV' 프레임워크를 제안합니다. DP-MTV는 수백 개의 예시를 활성화 공간의 압축된 태스크 벡터로 집계함으로써, 단일 노이즈 추가만으로 무제한 추론 쿼리가 가능하며 $(\varepsilon, \delta)$-차등 프라이버시를 보장합니다. 이를 통해 많은 수의 멀티모달 예시를 활용한 인컨텍스트 학습을 가능하게 합니다.

🔑 시사점 및 한계

•

민감한 멀티모달 데이터를 다루는 VLM에서 효율적이고 강력한 차등 프라이버시를 제공하는 최초의 프레임워크를 제시했습니다.

•

기존의 텍스트 기반 인컨텍스트 학습의 프라이버시 제약을 넘어, 많은 수의 멀티모달 예시를 활용하면서도 뛰어난 성능을 유지합니다.

•

제안된 DP-MTV 프레임워크는 $\varepsilon=1.0$ 환경에서 VizWiz 벤치마크에서 비공개 50% 대비 비개인 정보 55% 및 제로샷 35%의 성능을 달성하며, 프라이버시 제약 하에서도 인컨텍스트 학습의 이점을 상당 부분 보존합니다.

•

추가적인 보조 데이터의 유무에 따라 배포 가능하며, 세 가지 VLM 아키텍처에 걸쳐 8개의 벤치마크에서 평가되었습니다.

PDF 보기

Made with Slashpage