본 논문은 Constitutional AI (CAI)의 자기 비판 메커니즘을 소규모(7-9B parameter), 검열되지 않은 언어 모델(DeepSeek-R1, Gemma-2, Llama 3.1, Qwen2.5)에 적용하여 안전성을 평가한 연구입니다. HarmBench를 이용한 실험 결과, 모든 모델에서 자기 비판을 통한 위해성 감소 능력이 확인되었지만, 효과는 모델에 따라 크게 달랐으며, 특히 DeepSeek-R1의 명시적인 추론 과정이 우수한 결과를 보였습니다.