SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning
Created by
Haebom
저자
Borong Zhang, Yuhao Zhang, Jiaming Ji, Yingshan Lei, Josef Dai, Yuanpei Chen, Yaodong Yang
개요
본 논문은 시각-언어-행동 모델(VLAs)을 일반적인 로봇 정책으로 활용하는 데 있어 안전성 문제를 해결하기 위한 통합 안전 접근 방식(ISA)을 제시합니다. ISA는 안전 요구 사항을 체계적으로 모델링하고, 다양한 위험 행동을 유도하여 안전 강화 학습을 통해 VLA 정책을 제약하며, 표적 평가를 통해 안전성을 엄격하게 보장합니다. 제약된 마르코프 의사 결정 과정(CMDP) 패러다임을 활용하여 안전 위험에 대한 최소-최대 관점에서 VLAs를 최적화합니다. 이를 통해 효과적인 안전-성능 절충, 강력한 안전 보장, 다양한 분포 외 섭동에 대한 견고한 일반화라는 세 가지 주요 특징을 달성합니다. 특히, 최첨단 방법 대비 83.58%의 안전성 향상과 동시에 작업 성능 향상 (+3.85%)을 보였습니다. 데이터, 모델 및 새롭게 제안된 벤치마크 환경은 https://pku-safevla.github.io 에서 확인할 수 있습니다.