본 논문은 로봇 조작에서 미지의 시나리오와 새로운 작업에 대한 일반화 문제를 해결하기 위해, 공간 관계 추론을 통해 중간 표현을 생성하는 새로운 비전-언어 모델 FSD(From Seeing to Doing)를 제안합니다. FSD는 계층적 데이터 파이프라인과 공간 좌표와 시각 신호를 정렬하는 자기 일관성 메커니즘을 결합하여, 시각 정보를 로봇 조작에 대한 세부적인 지침으로 변환합니다. 광범위한 실험을 통해 일반적인 공간 추론 및 구현된 참조 능력에 대한 8개의 벤치마크와 새롭게 제안된 더욱 어려운 벤치마크인 VABench에서 뛰어난 성능을 달성했습니다. SimplerEnv 및 실제 로봇 환경에서 기존 방법보다 훨씬 향상된 제로샷 로봇 조작 능력을 입증하였으며, SimplerEnv에서 54.1%의 성공률, 8가지 실제 작업에서 72%의 성공률을 달성하여 기존 최고 성능 대비 30% 향상을 보였습니다.