Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models

Created by
  • Haebom
Category
Empty

저자

Yuping Yan, Yuhan Xie, Yixin Zhang, Lingjuan Lyu, Handing Wang, Yaochu Jin

개요

Vision-Language-Action (VLA) 모델의 적대적 견고성을 연구하여, 현실적인 다중 모달 및 블랙 박스 조건에서 VLA 모델의 취약점을 분석. VLA-Fool은 텍스트, 시각, 그리고 교차 모달 정렬 공격을 포함하는 포괄적인 다중 모달 적대적 공격 연구. LIBERO 벤치마크를 사용한 실험 결과, 미세한 다중 모달 방해에도 VLA 모델의 행동이 크게 변동됨을 확인.

시사점, 한계점

다중 모달 적대적 공격 연구의 중요성 강조: VLA 모델의 견고성 부족을 보여주며, 현실적인 환경에서의 신뢰성 확보 필요성을 제기.
세 가지 유형의 공격 제시: 텍스트, 시각, 그리고 교차 모달 오정렬 공격을 통해 VLA 모델의 취약점을 다각도로 분석.
VLA-aware 의미 공간 기반의 프롬프트 프레임워크 개발: 의미적으로 유도된 프롬프트를 사용하여 공격 효과를 극대화.
실험 결과, 미세한 방해에도 모델의 성능 저하: VLA 모델의 취약성을 입증하고, 견고성 개선의 필요성을 제시.
연구의 한계는 블랙 박스 환경에서의 공격 성공률 및 일반화 가능성 등 추가 연구 필요.
👍