대규모 언어 모델(LLM)의 의료 분야 활용 증가에 따라, 안전성과 신뢰성 확보가 중요해짐. 본 논문은 Kahneman-Tversky Optimization (KTO)과 Direct Preference Optimization (DPO)를 활용하여 도메인 특화 안전 신호에 맞춰 모델을 개선하는 반복적 사후 배포 정렬 프레임워크를 제시함. CARES-18K 벤치마크를 사용하여 4개의 LLM(Llama-3B/8B, Meditron-8B, Mistral-7B)을 평가한 결과, 유해 질의 감지 관련 지표에서 최대 42% 향상을 보임. 또한, 잘못된 거부와 상반되는 결과를 보이며, 아키텍처 의존적 보정 편향을 드러냄. 자가 평가의 신뢰성, 외부 또는 미세 조정된 판단의 필요성에 대한 연구도 수행함. 환자 안전, 사용자 신뢰, 임상적 유용성의 균형을 맞추는 것이 중요함을 강조함.