의료 진단 과정에서 흔히 나타나는 점진적인 시각적 집중 및 반복적 추론 방식을 모방하여, 임상의 스타일의 진단 추론을 동적으로 모델링하는 새로운 강화 학습 프레임워크인 MedEyes를 제안합니다. MedEyes는 전문가의 시각 탐색 궤적을 구조화된 외부 행동 신호로 변환하여 임상적으로 일치하는 시각적 추론을 모델링합니다. Gaze-guided Reasoning Navigator (GRN)을 통해 체계적인 이상 부위 탐색과 상세 지역 분석을 위한 이중 모드 탐색 전략을 사용하고, Confidence Value Sampler (CVS)를 도입하여 다양한 탐색 경로를 생성합니다. 또한, dual-stream GRPO 최적화 프레임워크를 통해 on-policy 및 off-policy 학습 신호를 분리하여, 의료 영상 질의 응답 (VQA) 벤치마크에서 평균 +8.5%의 성능 향상을 달성했습니다.