본 논문은 의료 영상 질의응답(VQA)을 위한 최초의 다중 모드 강화 학습 프레임워크인 MedCCO를 제시합니다. MedCCO는 커리큘럼 기반 강화 학습 미세 조정(RFT) 패러다임 내에서 폐쇄형 및 개방형 데이터를 통합합니다. 먼저 다양한 폐쇄형 의료 VQA 작업에 대해 미세 조정하여 도메인 기반 추론 능력을 확립한 후, 점진적으로 개방형 작업에 적용하여 더 깊은 지식 향상 및 임상 해석력을 증진시킵니다. 8개의 의료 VQA 벤치마크에서 MedCCO를 검증한 결과, 도메인 내 작업에서 11.4%의 정확도 향상, 도메인 외 벤치마크에서 5.7%의 향상을 달성하여 성능과 일반화 능력이 향상됨을 보여줍니다. 이는 커리큘럼 기반 강화 학습이 의료 다중 모드 언어 모델에서 강력하고 임상적으로 관련성 있는 추론을 발전시키는 데 유망함을 보여줍니다.