본 논문은 대규모 언어 모델(LLM)을 의료 분야에 적용할 때 발생하는 문제점들을 해결하기 위한 새로운 정렬 프레임워크인 MR-RML (Multidimensional Rubric-oriented Reward Model Learning) with GPRC (Geometric Projection Reference Constraints)를 제안합니다. 이 프레임워크는 의료 표준을 다차원 행렬로 구조화하여 데이터 생성 및 모델 최적화를 유도합니다. MR-RML은 (1) 도메인 특정 가이드라인을 훈련 파이프라인 전체에 포함하는 의료 표준 시스템, (2) 평가 기준을 분해하여 더 나은 평가 성능을 제공하는 독립적인 다차원 보상 모델, (3) 임상 인지 논리를 수학적 정규화로 변환하여 점수 기울기를 임상 추론과 정렬하고 합성 데이터로 훈련을 용이하게 하는 기하학적 투영 참조 제약 조건, 세 가지 혁신을 포함합니다. Healthbench 벤치마크 평가 결과, 제안하는 방법은 기본 Qwen-32B 모델의 성능을 크게 향상시키고, 오픈 소스 LLM 중 최고 성능을 달성했으며, 대부분의 폐쇄형 모델을 능가했습니다.