Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection
Created by
Haebom
Category
Empty
저자
Enshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang
개요
본 논문은 폐쇄 루프 로봇 시스템에서 열린 집합(open-set) 오류의 자동 감지 및 예방을 위한 새로운 패러다임인 Code-as-Monitor (CaM)을 제안합니다. CaM은 비전-언어 모델(VLM)을 활용하여 열린 집합 오류에 대한 반응적(reactive) 및 예측적(proactive) 감지를 통합적으로 수행합니다. 두 작업 모두 시공간 제약 만족 문제로 공식화되고, VLM이 생성한 코드를 사용하여 실시간 모니터링을 수행합니다. 제약 관련 엔티티 또는 그 부분을 컴팩트한 기하학적 요소로 추상화하는 제약 요소를 추가하여 모니터링의 정확성과 효율성을 높였습니다. 실험 결과, 세 개의 시뮬레이터와 실제 환경에서 기존 방법 대비 성공률 28.7% 향상 및 실행 시간 31.8% 단축을 보였으며, 개방 루프 제어 정책과 통합하여 복잡하고 역동적인 환경에서 장기간 작업이 가능한 폐쇄 루프 시스템을 구축할 수 있음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
VLM을 활용한 통합적인 열린 집합 오류 감지 및 예방 프레임워크 제시
◦
시공간 제약 만족 문제를 통한 효율적인 모니터링
◦
기하학적 요소를 활용한 제약 기반 시각적 프로그래밍으로 정확성 및 효율성 향상
◦
실제 환경에서의 성능 검증 및 개방 루프 제어 정책과의 통합을 통한 폐쇄 루프 시스템 구축 가능성 제시
◦
기존 방법 대비 성능 향상 (성공률 28.7% 증가, 실행 시간 31.8% 단축)
•
한계점:
◦
VLM의 성능에 의존적인 부분 존재 (VLM의 한계가 CaM의 성능에 영향을 줄 수 있음)