Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Feasibility-Aware Pessimistic Estimation: Toward Long-Horizon Safety in Offline RL

Created by
  • Haebom

저자

Zhikun Tao, Gang Xiong, He Fang, Zhen Shen, Yunjun Han, Qing-Shan Jia

개요

본 논문은 오프라인 안전 강화 학습(OSRL)에서 장기적인 안전성과 OOD(out-of-distribution) 데이터에 대한 취약성 문제를 해결하기 위해 새로운 프레임워크인 FASP(Feasibility-Aware offline Safe Reinforcement Learning with CVAE-based Pessimism)를 제안합니다. FASP는 Hamilton-Jacobi reachability analysis를 이용하여 안전성 라벨을 생성하고, CVAE(Conditional Variational Autoencoder)와 안전 분류기를 학습시켜 장기적인 안전성을 보장하고 샘플 효율성을 높입니다. 또한, 비관적 추정(pessimistic estimation) 방법을 사용하여 OOD 액션으로 인한 외삽 오류를 완화하고 위험 행동을 사전에 방지합니다. 이러한 비관적 추정의 유효성을 이론적으로 증명하고, DSRL 벤치마크 실험을 통해 FASP의 우수한 안전성 성능을 검증합니다.

시사점, 한계점

시사점:
Hamilton-Jacobi reachability analysis와 CVAE 기반의 새로운 프레임워크를 통해 오프라인 안전 강화 학습의 장기적인 안전성과 샘플 효율성을 향상시켰습니다.
비관적 추정 방법을 통해 OOD 액션에 대한 로버스트성을 높였습니다.
이론적인 유효성 증명을 통해 알고리즘의 신뢰성을 높였습니다.
다양한 실험을 통해 기존 방법들보다 우수한 안전성 성능을 보였습니다.
한계점:
Hamilton-Jacobi reachability analysis의 계산 비용이 클 수 있습니다.
CVAE의 성능이 전체 시스템 성능에 영향을 미칠 수 있습니다.
특정 벤치마크에 대한 실험 결과이므로 다른 환경에서의 일반화 성능은 추가적인 연구가 필요합니다.
👍