KFCPO는 안전 강화 학습(Safe RL) 알고리즘으로, 확장 가능한 Kronecker-Factored Approximate Curvature (K-FAC) 기반의 2차 정책 최적화와 안전 인식 그래디언트 조작을 결합합니다. K-FAC을 활용하여 Fisher Information Matrix (FIM)를 계층별, 폐쇄 형식으로 근사하여 효율적이고 안정적인 자연 그래디언트 업데이트를 수행하며, 반복적인 근사 오버헤드를 피합니다. 보상 최대화와 제약 조건 만족 간의 트레이드오프를 해결하기 위해, 안전 경계에 대한 에이전트의 근접성에 따라 보상 및 비용 그래디언트의 영향을 적응적으로 조정하는 여유 인식 그래디언트 조작 메커니즘을 도입했습니다. 또한, 신뢰 영역 준수를 보장하고 불안정한 정책 변화를 방지하기 위해 미니배치 수준의 KL 롤백 전략을 채택했습니다. Safety Gymnasium에서 진행한 실험 결과, KFCPO는 안전 제약 조건을 준수하는 최상의 기반 모델보다 10.3%에서 50.2% 더 높은 평균 반환값을 달성하여 안전과 성능의 우수한 균형을 입증했습니다.