본 논문은 대규모 비전-언어 모델(LVLMs)의 프라이버시 위험을 평가하기 위한 종합적인 벤치마크인 Multi-P$^2$A를 제안합니다. Multi-P$^2$A는 입력 데이터의 프라이버시 민감도를 인식하는 모델의 능력을 측정하는 프라이버시 인식과, 출력에서 프라이버시 정보를 의도치 않게 공개할 위험을 평가하는 프라이버시 유출이라는 두 가지 측면에서 LVLMs의 프라이버시 보존 능력을 평가합니다. 26개의 개인 프라이버시 범주, 15개의 영업 비밀 범주, 18개의 국가 기밀 범주를 포함하는 총 31,962개의 샘플을 사용하여 다양한 하위 작업을 설계하고, 21개의 오픈소스 및 2개의 클로즈드소스 LVLMs를 평가했습니다. 연구 결과, 현재 LVLMs는 개인 프라이버시, 영업 비밀, 국가 기밀 전반에 걸쳐 취약성이 다르지만, 일반적으로 프라이버시 침해를 용이하게 할 위험이 높은 것으로 나타났습니다.