Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Feasibility-Aware Pessimistic Estimation: Toward Long-Horizon Safety in Offline RL

Created by
  • Haebom

저자

Zhikun Tao, Gang Xiong, He Fang, Zhen Shen, Yunjun Han, Qing-Shan Jia

개요

본 논문은 오프라인 안전 강화 학습(OSRL)에서 장기적인 안전성과 OOD(Out-of-Distribution) 문제를 해결하기 위해 새로운 프레임워크인 FASP(Feasibility-Aware offline Safe Reinforcement Learning with CVAE-based Pessimism)를 제안합니다. FASP는 Hamilton-Jacobi reachability analysis를 이용하여 안전성 레이블을 생성하고, CVAE(Conditional Variational Autoencoder)와 안전성 분류기를 학습시켜 높은 샘플 효율성과 장기적인 안전성 보장을 제공합니다. 또한, 비관적 추정 방법을 사용하여 OOD 액션으로 인한 외삽 오류를 완화하고, 위험 행동을 사전에 방지하여 안전성을 향상시킵니다. 이러한 비관적 추정의 타당성을 이론적으로 증명하고, DSRL 벤치마크 실험을 통해 FASP 알고리즘의 우수한 성능을 검증합니다.

시사점, 한계점

시사점:
Hamilton-Jacobi reachability analysis와 CVAE 기반의 안전 레이블 생성을 통해 높은 샘플 효율성과 장기적인 안전성을 확보하는 새로운 OSRL 프레임워크 제시.
비관적 추정 방법을 활용하여 OOD 액션에 대한 외삽 오류를 줄이고 안전성을 향상.
이론적 증명을 통해 비관적 추정 방법의 타당성을 검증.
다양한 실험을 통해 기존 최고 성능 알고리즘보다 우수한 안전성 성능을 달성.
한계점:
제안된 프레임워크의 실제 세계 적용에 대한 추가적인 실험 및 검증이 필요.
Hamilton-Jacobi reachability analysis의 계산 비용이 높을 수 있음.
특정 환경에 대한 의존성 및 일반화 성능에 대한 추가적인 연구 필요.
👍