본 논문은 시뮬레이션 환경에서는 성공적이지만 실제 환경(예: O-RAN)에서는 시뮬레이션과 현실의 차이로 인해 어려움을 겪는 심층 강화 학습(DRL) 기반 슬라이싱 정책의 문제점을 해결하기 위해 SafeSlice를 제안합니다. SafeSlice는 O-RAN 슬라이스의 누적 및 순간 지연 제약 조건을 모두 해결합니다. 누적 제약 조건은 슬라이스의 지연 요구 사항을 반영하는 시그모이드 기반 위험 감수형 보상 함수를 설계하여 통합하고, 순간 제약 조건은 슬라이싱 에이전트의 RA 작업을 가장 가까운 안전한 작업으로 투영하는 안전 계층의 일부로 감독 학습 비용 모델을 구축합니다. 실제 VR 게임 트래픽을 포함한 여러 서비스를 지원하는 실험을 통해 극한 및 변화하는 배포 조건에서 SafeSlice의 성능을 조사했습니다. SafeSlice는 기준선과 비교하여 평균 누적 지연 시간을 최대 83.23%, 순간 지연 위반을 93.24%, 자원 소비를 22.13% 줄였습니다. 또한 결과는 SafeSlice가 지연 제약 조건의 임계값 구성을 변경하는 것에 대한 강력함을 나타냅니다.