본 논문은 오프라인 안전 강화 학습(OSRL)에서 장기적인 안전성과 OOD(Out-of-Distribution) 문제를 해결하기 위해 새로운 프레임워크인 FASP(Feasibility-Aware offline Safe Reinforcement Learning with CVAE-based Pessimism)를 제안합니다. FASP는 Hamilton-Jacobi reachability analysis를 이용하여 안전성 레이블을 생성하고, CVAE(Conditional Variational Autoencoder)와 안전성 분류기를 학습시켜 높은 샘플 효율성과 장기적인 안전성 보장을 제공합니다. 또한, 비관적 추정 방법을 사용하여 OOD 액션으로 인한 외삽 오류를 완화하고, 위험 행동을 사전에 방지하여 안전성을 향상시킵니다. 이러한 비관적 추정의 타당성을 이론적으로 증명하고, DSRL 벤치마크 실험을 통해 FASP 알고리즘의 우수한 성능을 검증합니다.