본 논문은 "두 명을 위한 식탁을 차리세요"와 같이 불명확한 지시사항을 이해하여 기능적인 물체 배열을 생성할 수 있는 로봇 개발의 어려움을 연구합니다. 기존의 배열 방식은 "A 물체를 테이블 위에 올려놓으세요"와 같이 훨씬 명시적인 지시사항에 중점을 두었습니다. 본 논문에서는 불명확한 지시사항을 해석하는 방법을 학습하기 위한 SetItUp이라는 프레임워크를 제시합니다. SetItUp은 소수의 훈련 예시와 사람이 만든 프로그램 스케치를 사용하여 특정 장면 유형에 대한 배열 규칙을 찾아냅니다. 물체 간의 추상적인 공간 관계를 나타내는 중간 그래프와 같은 표현을 활용하여 배열 문제를 두 가지 하위 문제로 분해합니다. 첫째, 제한된 데이터에서 배열 패턴을 학습하고, 둘째, 이러한 추상적인 관계를 물체의 자세로 구체화하는 것입니다. SetItUp은 대규모 언어 모델(LLM)을 활용하여 새로운 장면에서 물체 간의 추상적인 공간 관계를 만족해야 할 제약 조건으로 제안합니다. 그런 다음, 이러한 추상적인 관계와 연관된 확산 모델 라이브러리를 구성하여 제약 조건을 만족하는 물체의 자세를 찾습니다. 책상, 식탁, 커피 테이블을 포함하는 데이터셋에서 프레임워크를 검증한 결과, 기존 모델에 비해 물리적으로 타당하고 기능적이며 미적으로 즐거운 물체 배열을 생성하는 데 우수한 성능을 보였습니다.