Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models

Created by
  • Haebom
Category
Empty

저자

Yuping Yan, Yuhan Xie, Yinxin Zhang, Lingjuan Lyu, Yaochu Jin

개요

Vision-Language-Action (VLA) 모델의 적대적 견고성에 대한 연구를 수행하여, 현실적인 다중 모드 및 블랙 박스 환경에서 VLA 모델의 취약성을 탐구합니다. VLA-Fool을 통해 텍스트, 시각적, 그리고 교차 모달 정렬 공격을 통합하여 다중 모드 적대적 공격을 포괄적으로 분석합니다. OpenVLA 모델을 fine-tuning하여 LIBERO 벤치마크에서 실험을 진행하고, 미세한 다중 모드 교란에도 모델의 행동이 크게 변화하는 것을 확인했습니다.

시사점, 한계점

시사점:
VLA 모델의 다중 모드 정렬 취약성을 입증하여, 현실적인 환경에서의 견고성 부족을 강조함.
다양한 유형의 적대적 공격을 통합하여, 포괄적인 취약성 분석을 제공함.
VLA-aware semantic space를 활용한 프롬프팅 기법 개발을 통해 새로운 공격 기법 제시.
한계점:
특정 VLA 모델(OpenVLA)과 벤치마크(LIBERO)에 대한 실험으로, 다른 모델 및 환경에서의 일반화는 추가 연구 필요.
방어 메커니즘 개발 및 평가에 대한 연구는 포함되지 않음.
블랙 박스 공격의 실제 적용 가능성에 대한 추가적인 고려가 필요함.
👍