Vision-Language Model(VLM)이 복잡한 공간 추론에 어려움을 겪는 문제를 해결하기 위해, 대규모 모델의 추론 과정을 고품질 데이터셋으로 증류하는 프레임워크인 SpatialTraceGen을 소개한다. 이 프레임워크는 자동 검증기를 통해 각 추론 단계의 정확성을 보장하며, CLEVR-Humans 벤치마크에서 추론 품질을 향상시키고 변동성을 감소시킨다. SpatialTraceGen은 효율적인 미세 조정 및 오프라인 강화 학습에 필요한 단계별 예시를 제공하는 전문가 추론 데이터셋을 생성한다.