본 논문은 실세계 적용이 증가하는 AI 시스템의 안전성 확보라는 중요한 과제에 대해 다룹니다. 사용자 정의 안전 제약 조건을 특정 확률로 만족하도록 보장하는 새로운 도메인 독립적 프레임워크를 제안합니다. 이 방법은 성능을 유지하면서 출력이 안전 요구 사항을 충족하도록 하는 최적화 문제와 모든 AI 모델을 결합합니다. 주요 과제는 만족 여부를 결정적으로 평가할 수 없는 불확실한 제약 조건(예: 챗봇 응답이 "유해한"지 여부)을 처리하는 것입니다. 이를 위해 안전 분류 모델, 내부 테스트 데이터, 보수적인 테스트라는 세 가지 혁신을 제시합니다. 안전 분류 모델은 제약 조건 만족 확률을 평가하고, 내부 테스트 데이터는 이 분류기의 신뢰성을 평가하며, 보수적인 테스트는 이 데이터를 훈련에 사용할 때 과적합을 방지합니다. 온건한 조건 하에서 확률적 안전을 보장하는 방법을 증명하고, AI 안전 분야의 첫 번째 확장 법칙을 확립하여 더 많은 내부 테스트 데이터를 사용하면 안전-성능 트레이드오프가 예측 가능하게 개선됨을 보여줍니다. 생산 계획, 강화 학습, 언어 생성에 대한 실험을 통해 기존 방법보다 최대 140배 더 나은 안전성을 동일한 성능 수준에서 달성함을 보여줍니다. 이 연구는 다양한 도메인에서 엄격한 안전 보장과 높은 성능을 모두 달성할 수 있도록 합니다.