QoQ-Med-7B/32B는 의료 이미지, 시계열 신호, 텍스트 보고서를 통합적으로 추론하는 최초의 오픈 일반 의료 기반 모델입니다. 기존의 다중 모달 언어 모델(MLLM)이 시각 중심적이고 임상 전문 분야를 넘어 일반화하는 데 실패하는 문제를 해결하기 위해 개발되었습니다. 도메인 인식 상대 정책 최적화(DRPO)라는 새로운 강화 학습 목적 함수를 사용하여, 도메인 희귀성과 모달리티 난이도에 따라 보상을 계층적으로 조정함으로써, 치우친 임상 데이터 분포로 인한 성능 불균형을 완화합니다. 9개의 임상 도메인에 걸쳐 261만 개의 instruction tuning pair로 학습되었으며, 다른 critic-free 학습 방법(예: GRPO)과 비교하여 모든 시각 도메인에서 macro-F1 기준으로 진단 성능이 평균 43% 향상되었습니다. 집중적인 분할 데이터로 학습된 QoQ-Med는 OpenAI o4-mini의 성능에 도달하면서, 다른 오픈 모델보다 10배 높은 IoU로 진단과 관련된 중요 영역을 강조 표시할 수 있습니다. 재현성과 후속 연구를 위해 모델 가중치, 모듈식 학습 파이프라인, 모든 중간 추론 추적을 공개합니다.