본 논문은 강화 학습에서 에이전트가 새로운 상황에서 신중하게 행동하도록 하는 방법을 제시합니다. 기존의 접근 방식은 작업별 안전 정보나 명시적인 신중한 행동을 시스템에 내장하는데, 이는 오류가 발생하기 쉽고 실무자에게 추가적인 부담을 줍니다. 본 논문에서는 신중한 행동이 점점 더 불분명해지는 일련의 작업과 시스템이 신중함을 학습할 수 있음을 보여주는 알고리즘을 제시합니다. 알고리즘의 핵심 기능은 작업별 안전 정보 없이 보상 함수의 불확실성을 특징짓고 이 불확실성을 사용하여 강력한 정책을 구성하는 것입니다. 특히, 신경망 앙상블로 표현된 학습된 보상 함수의 불확실성을 고려하여 k-of-N 반사실적 후회 최소화(CFR) 서브루틴을 사용하여 강력한 정책을 구성합니다. 이러한 정책은 작업별 안전 조정 없이 각 작업에서 신중함을 보입니다.