본 논문은 오프라인 안전 강화 학습(OSRL)에서 장기적인 안전성과 OOD(out-of-distribution) 데이터에 대한 취약성 문제를 해결하기 위해 새로운 프레임워크인 FASP(Feasibility-Aware offline Safe Reinforcement Learning with CVAE-based Pessimism)를 제안합니다. FASP는 Hamilton-Jacobi reachability analysis를 이용하여 안전성 라벨을 생성하고, CVAE(Conditional Variational Autoencoder)와 안전 분류기를 학습시켜 장기적인 안전성을 보장하고 샘플 효율성을 높입니다. 또한, 비관적 추정(pessimistic estimation) 방법을 사용하여 OOD 액션으로 인한 외삽 오류를 완화하고 위험 행동을 사전에 방지합니다. 이러한 비관적 추정의 유효성을 이론적으로 증명하고, DSRL 벤치마크 실험을 통해 FASP의 우수한 안전성 성능을 검증합니다.