본 논문은 강화 학습 기반 검증 가능한 보상을 사용하는 대규모 시각-언어 모델(LVLMs)의 시각적 추론 능력 향상에 중점을 둡니다. 기존의 강화 학습 미세조정(RFT) 방법은 계산 비용이 많이 드는 문제점이 있는데, 본 논문에서는 ProxyThinker라는 추론 단계 기법을 제안합니다. ProxyThinker는 작고 느린 시각적 추론 모델로부터 학습 없이 대규모 모델이 시각적 추론 능력을 상속받도록 합니다. RFT 추론기와 기본 모델의 출력 분포 차이를 이용하여 디코딩 동역학을 수정함으로써, 자기 검증 및 자기 수정과 같은 정교한 동작을 유도합니다. 공간, 수학, 다학제 추론 등 어려운 시각적 벤치마크에서 성능을 향상시키며, 미세조정되지 않은 기본 모델이 RFT 모델과 유사한 성능을 달성하도록 합니다. 또한 병렬 처리 기법을 사용하여 효율적인 구현을 통해 기존 디코딩 시간 방식보다 최대 38배 빠른 추론 속도를 달성합니다.