Vision-Language-Action (VLA) 모델은 시각, 청각 등 다양한 감각 정보를 통합하여 로봇 시스템을 혁신하지만, 물리적 센서 공격에 대한 취약성이 간과되어 왔다. 본 연구는 VLA 모델에 대한 최초의 체계적인 물리적 센서 공격 연구를 수행하여, 센서 공격의 영향을 정량화하고 방어 기법을 탐구한다. Real-Sim-Real 프레임워크를 통해 카메라 및 마이크를 대상으로 하는 8가지 공격 벡터를 생성하고, 실제 로봇 시스템에서 검증한다. 다양한 VLA 아키텍처 및 작업에 대한 대규모 평가를 통해 모델의 취약성을 확인하고, 적대적 훈련 기반 방어 기법을 개발하여 모델의 견고성을 향상시킨다.
시사점, 한계점
•
VLA 모델은 물리적 센서 공격에 취약하며, 공격 유형, 작업 유형 및 모델 설계에 따라 취약성 패턴이 달라진다.
•
"Real-Sim-Real" 프레임워크는 실제 환경에서 센서 공격을 시뮬레이션하고 검증하는 효과적인 방법론을 제시한다.
•
적대적 훈련 기반 방어 기법은 센서 공격에 대한 VLA 모델의 견고성을 향상시킬 수 있다.
•
안전 필수 환경에서 VLA 모델의 배포를 위해 표준화된 견고성 벤치마크 및 완화 전략이 시급하다.
•
연구는 특정 VLA 아키텍처 및 공격 유형에 국한될 수 있으며, 모든 가능한 공격 시나리오를 포괄하지 못할 수 있다.