본 논문은 실제 세계의 물리적 변화에 대한 강건성이 충분히 탐구되지 않은 Vision-Language-Action (VLA) 모델의 한계를 다룹니다. 이를 해결하기 위해, 이 논문은 이산적인 물리적 변화를 연속적인 최적화 문제로 변환하여 VLA 모델의 강건성을 체계적으로 평가하는 최초의 통합 프레임워크인 Eva-VLA를 제안합니다. Eva-VLA는 실제 세계 배포에서 발생하는 다양한 물리적 변화를 객체 3D 변환, 조명 변화, 적대적 패치의 세 가지 영역으로 분해하여 체계적으로 특징을 나타내고, 연속적인 블랙박스 최적화 프레임워크를 통해 최악의 시나리오를 효율적으로 탐색합니다. 다양한 벤치마크에서 최첨단 OpenVLA 모델에 대한 광범위한 실험 결과, 모든 변화 유형에서 60%를 초과하는 실패율이 나타났으며, 객체 변환은 장기간 작업에서 최대 97.8%의 실패율을 야기했습니다. 이는 제어된 실험실 성공과 예측할 수 없는 배포 준비 상태 간의 심각한 차이를 보여줍니다.