본 논문은 시각적 추론을 향상시키기 위해 잠재 시각 공간에서 직접 추론하는 다중 모드 대규모 언어 모델(MLLM)을 훈련하는 Monet이라는 프레임워크를 소개합니다. Monet은 중간 시각적 사고로 연속 임베딩을 생성하며, 잠재 시각 정렬의 높은 계산 비용과 잠재 임베딩에 대한 불충분한 감독이라는 두 가지 주요 문제를 해결하기 위해 3단계 증류 기반의 감독된 미세 조정(SFT) 파이프라인을 활용합니다. 또한, VLPO (Visual-latent Policy Optimization)라는 강화 학습 방법을 제안하여 잠재 임베딩을 정책 기울기 업데이트에 명시적으로 통합합니다. 이를 지원하기 위해 125K개의 실제, 차트, OCR 및 기하학 CoT를 포함하는 고품질 텍스트-이미지 교차 CoT 데이터 세트인 Monet-SFT-125K를 구축했습니다. Monet-7B 모델은 다양한 벤치마크에서 일관된 성능 향상을 보이며, 어려운 추상적 시각적 추론 작업에서 강력한 out-of-distribution 일반화를 보여줍니다.