본 논문은 다양한 출력 형식(객관식 문제, 자유 답변, 복잡한 계산 문제 등)을 포함하는 의료 질의응답(Medical Question-Answering, Med-QA)을 위한 통합 프레임워크인 Med-U1을 제시합니다. Med-U1은 대규모 강화 학습과 혼합 규칙 기반 이진 보상 함수를 사용하며, 출력 길이 제어를 위한 길이 패널티를 적용합니다. 다목적 보상 최적화를 통해 간결하고 검증 가능한 추론 과정을 생성하도록 설계되었습니다. 실험 결과, Med-U1은 여러 Med-QA 벤치마크에서 기존의 전문 모델들을 능가하는 성능 향상을 보였으며, 특히 분포 외(out-of-distribution, OOD) 작업에서 강력한 일반화 능력을 보여주었습니다. 논문에서는 훈련 전략, 추론 과정 길이 제어, 의료 LLM을 위한 보상 설계에 대한 통찰력을 제시합니다.