En este artículo, proponemos SPORT, un método para resolver el problema general de colocación de objetos que sigue la instrucción "algo algo". SPORT consta de tres etapas: localización del objeto, imaginación de la posición del objetivo y control del robot. Realiza una inferencia semántica exhaustiva sobre los objetos aprovechando un modelo de visión preentrenado a gran escala y entrena un estimador de pose basado en difusión para la estimación de la pose en un espacio 3D físicamente realista. Al intercambiar únicamente la información sobre si los objetos pueden moverse entre las dos etapas, maximizamos las capacidades abiertas de reconocimiento y localización de objetos y permitimos una estimación efectiva de la pose del objetivo sin aprendizaje a gran escala. El estimador de pose del objetivo se entrena con datos anotados y recopilados mediante GPT-4 en un entorno de simulación, y los resultados experimentales demuestran su eficacia tanto en entornos de simulación como reales.