Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Defending LVLMs Against Vision Attacks through Partial-Perception Supervision

Created by
  • Haebom

저자

Qi Zhou, Tianlin Li, Qing Guo, Dongxia Wang, Yun Lin, Yang Liu, Jin Song Dong

개요

본 논문은 대규모 비전 언어 모델(LVLMs)이 악의적으로 주입되거나 변형된 입력 이미지에 취약하다는 점을 다룹니다. 기존 방어 방법들은 이미지 수정(특히 자르기)에 민감한 시각적 공격을 다루지만, 이러한 수정은 부분 이미지를 생성하고 의미론을 왜곡하여 투표 후 깨끗한 이미지에 대한 응답 품질을 저하시킵니다. 본 논문에서는 부분 이미지의 응답을 직접 투표에 사용하는 대신, 이를 사용하여 LVLM의 원본 이미지에 대한 응답을 감독하는 방법을 제시합니다. 부분 인식 감독(DPS)이라는 블랙박스, 무훈련 방식을 제안하는데, 이는 부분 이미지만 인식하는 모델이 생성한 응답을 사용하여 모델에 프롬프트를 제공하는 방식입니다. DPS를 통해 모델은 공격을 받을 때 부분 이미지 이해를 기반으로 응답을 조정하면서 깨끗한 입력에 대해서는 원래 응답을 자신 있게 유지할 수 있습니다. 실험 결과, 약한 모델이 강한 모델을 감독할 수 있음을 보여주며, 강한 모델은 공격을 받으면 자신감이 떨어지고 약한 모델의 부분적 이해를 바탕으로 응답을 조정하여 공격을 효과적으로 방어합니다. 세 가지 인기 모델에 대한 여섯 가지 데이터 세트에서 평균 공격 성공률을 76.3% 줄이는 것으로 나타났습니다.

시사점, 한계점

시사점:
부분 이미지 정보를 활용하여 대규모 비전 언어 모델의 적대적 공격에 대한 새로운 방어 기법을 제시합니다.
기존의 투표 기반 방어 방식의 한계를 극복하고, 깨끗한 이미지에 대한 응답 품질 저하 없이 공격을 방어하는 효과적인 방법을 제시합니다.
약한 모델을 활용하여 강한 모델을 감독하는 독창적인 접근 방식을 제시합니다.
다양한 데이터 세트와 모델에서 높은 방어 성능을 보여줍니다.
한계점:
제안된 DPS 방법이 모든 종류의 시각적 공격에 대해 효과적인지 추가적인 연구가 필요합니다.
특정 유형의 부분 이미지 또는 특정 공격 방식에 대해서는 방어 성능이 저하될 가능성이 있습니다.
블랙박스 방식이므로, 모델 내부 작동 메커니즘에 대한 이해가 부족할 수 있습니다.
실제 환경에서의 적용 가능성에 대한 추가적인 검증이 필요합니다.
👍