본 논문은 분리된 DNN 구성(사용자 기기에서 시각적 인코더가 작동하고 중간 특징을 클라우드로 전송)으로 배포되는 비전-언어 모델(VLMs)의 중간 특징으로부터의 의미 정보 유출에 대한 심각한 개인 정보 보호 위험을 다룹니다. 기존의 중간 특징으로부터 이미지를 재구성하는 접근 방식은 종종 흐릿하고 의미적으로 모호한 이미지를 생성하는 한계를 가지고 있습니다. 이에 본 논문에서는 이미지 재구성 없이 중간 특징으로부터 직접 레이블이나 캡션과 같은 고차원 의미 내용을 복구하는 교차 모드 반전 프레임워크인 CapRecover를 제안합니다. 여러 데이터셋과 피해 모델에서 CapRecover를 평가하여 강력한 의미 복구 성능을 보였으며, CIFAR-10에서 최대 92.71%의 Top-1 레이블 정확도를 달성하고, COCO2017의 ResNet50 특징으로부터 ROUGE-L 점수가 최대 0.52인 유창한 캡션을 생성했습니다. 또한, 심층 합성곱층이 얕은 층에 비해 훨씬 더 많은 의미 정보를 인코딩한다는 것을 분석을 통해 밝혔습니다. 의미 유출을 완화하기 위해 각 층의 중간 특징에 랜덤 노이즈를 추가하고 다음 층에서 노이즈를 제거하는 간단하면서도 효과적인 보호 방법을 제시했습니다. 실험 결과, 이 방법은 추가적인 훈련 비용 없이 의미 유출을 방지하는 것으로 나타났습니다.