본 논문은 "something something" 명령어를 따르는 범용 객체 배치 문제를 해결하기 위한 방법인 SPORT를 제안한다. SPORT는 객체 위치 파악, 목표 위치 상상, 로봇 제어의 세 단계로 구성된다. 대규모 사전 학습된 비전 모델을 활용하여 객체에 대한 광범위한 의미적 추론을 수행하고, 물리적으로 사실적인 3D 공간의 자세 추정을 위해 확산 기반 자세 추정기를 학습한다. 객체의 이동 가능 여부 정보만을 두 단계 간에 주고받아 개방형 객체 인식 및 위치 파악 능력을 최대한 활용하고, 대규모 학습 없이도 효과적인 목표 자세 추정을 가능하게 한다. 시뮬레이션 환경에서 GPT-4를 사용하여 주석을 달고 수집한 데이터로 목표 자세 추정기를 학습하며, 실험 결과 시뮬레이션 및 실제 환경 모두에서 효과적임을 보여준다.