Eva-VLA: Evaluating Vision-Language-Action Models' Robustness Under Real-World Physical Variations

작성자

Haebom

카테고리

Empty

저자

Hanqing Liu, Jiahuan Long, Junqi Wu, Jiacheng Hou, Huili Tang, Tingsong Jiang, Weien Zhou, Wen Yao

개요

본 논문은 실제 세계의 물리적 변화에 대한 강건성이 충분히 탐구되지 않은 Vision-Language-Action (VLA) 모델의 한계를 다룹니다. 이를 해결하기 위해, 이 논문은 이산적인 물리적 변화를 연속적인 최적화 문제로 변환하여 VLA 모델의 강건성을 체계적으로 평가하는 최초의 통합 프레임워크인 Eva-VLA를 제안합니다. Eva-VLA는 실제 세계 배포에서 발생하는 다양한 물리적 변화를 객체 3D 변환, 조명 변화, 적대적 패치의 세 가지 영역으로 분해하여 체계적으로 특징을 나타내고, 연속적인 블랙박스 최적화 프레임워크를 통해 최악의 시나리오를 효율적으로 탐색합니다. 다양한 벤치마크에서 최첨단 OpenVLA 모델에 대한 광범위한 실험 결과, 모든 변화 유형에서 60%를 초과하는 실패율이 나타났으며, 객체 변환은 장기간 작업에서 최대 97.8%의 실패율을 야기했습니다. 이는 제어된 실험실 성공과 예측할 수 없는 배포 준비 상태 간의 심각한 차이를 보여줍니다.

시사점, 한계점

•

시사점:

◦

VLA 모델의 실제 세계 적용을 위한 강건성 평가의 중요성을 강조합니다.

◦

Eva-VLA 프레임워크는 VLA 모델의 강건성을 체계적으로 평가하고 개선하는 실용적인 방법을 제공합니다.

◦

실제 세계 배포 시 VLA 모델의 취약성을 폭넓게 밝히고, 향후 연구 방향을 제시합니다.

◦

객체 변환, 조명 변화, 적대적 패치 등 다양한 물리적 변화에 대한 VLA 모델의 취약성을 정량적으로 분석합니다.

•

한계점:

◦

Eva-VLA 프레임워크의 성능은 사용된 최적화 알고리즘 및 벤치마크 데이터셋에 의존적일 수 있습니다.

◦

제안된 세 가지 변화 영역 외에도 다른 유형의 물리적 변화에 대한 고려가 필요할 수 있습니다.

◦

실제 세계의 복잡성을 완벽하게 반영하지 못할 수 있습니다.

◦

연산 비용이 높을 수 있습니다.

PDF 보기

Made with Slashpage