대규모 언어 모델(LLM)의 강점인 추론 능력을 향상시키기 위해, 정확성만을 보상하는 기존의 사후 훈련 방법(예: GRPO)의 한계를 극복하고, 의학 분야와 같이 정확성, 충실성, 완전성 등 다차원적 목표를 요구하는 분야에 적합한 Clinical-Objective Relative Policy Optimization (CRPO)를 제안한다. CRPO는 규칙 기반 및 검증 가능한 보상 신호를 통합하여 정확성, 충실성, 완전성을 공동으로 최적화하며, Clinical-R1-3B 모델을 훈련하여 CRPO의 효과를 입증한다. 실험 결과 CRPO는 기존 GRPO보다 진실성과 완전성 측면에서 향상된 추론 능력을 보였으며, 의료 분야에서 LLM의 안전하고 협력적인 AI 시스템 구축에 기여할 수 있는 가능성을 제시한다.