본 논문은 비선형 시스템에 대한 제어 라이아푸노프 함수(Control Lyapunov Function, CLF)의 신경망 근사를 위한 새로운 표본 효율적인 방법을 제시합니다. 기존 CLF 설계의 어려움을 해결하기 위해, 자기 지도 강화 학습(Reinforcement Learning, RL)을 활용하여 특히 상태 공간의 부정확하게 표현된 영역에 대한 훈련 데이터 생성을 향상시킵니다. 데이터 기반 월드 모델(World Model)을 사용하여 오프-폴리시(off-policy) 궤적에서 라이아푸노프 함수를 훈련하며, 표준 및 목표 조건 로봇 작업에서 기존 최첨단 신경망 라이아푸노프 근사 기법보다 빠른 수렴과 높은 근사 정확도를 보임을 실험적으로 검증합니다. 소스 코드는 공개되어 있습니다.