Vision-Language-Action (VLA) 모델의 적대적 견고성에 대한 연구를 수행하여, 현실적인 다중 모드 및 블랙 박스 환경에서 VLA 모델의 취약성을 탐구합니다. VLA-Fool을 통해 텍스트, 시각적, 그리고 교차 모달 정렬 공격을 통합하여 다중 모드 적대적 공격을 포괄적으로 분석합니다. OpenVLA 모델을 fine-tuning하여 LIBERO 벤치마크에서 실험을 진행하고, 미세한 다중 모드 교란에도 모델의 행동이 크게 변화하는 것을 확인했습니다.