객체 중심의 구성 전략을 기반으로 하는, 시각적 그룹화(인스턴스 분할, 시각적 근거, 객체 감지)를 위한 간단하고 확장 가능한 데이터 합성 파이프라인인 SOS를 제시합니다. SOS는 구조화된 레이아웃 사전과 생성적 재조명을 사용하여 고품질 합성 객체 세그먼트를 새로운 이미지에 붙여넣어 정확하고 다양한 마스크, 상자 및 참조 표현을 생성합니다. SOS로 훈련된 모델은 GRIT(20M) 및 V3Det(200K)과 같은 더 큰 실제 이미지 데이터 세트보다 더 나은 성능을 보이며, LVIS 감지에서 +10.9 AP, gRefCOCO 근거에서 +8.4 $N_{\text{Acc}}$를 달성합니다. SOS는 제어 가능한 데이터 세트 구축을 가능하게 하고 저데이터 및 폐쇄 어휘 환경 모두에서 일반화를 개선합니다. LVIS 및 COCO를 합성 객체 세그먼트로 보강하면 실제 데이터 규모에서 강력한 성능을 얻으며, 실제 데이터가 극히 제한적인 경우에도 더 큰 이점을 얻습니다.