MetaSpatial은 시각-언어 모델(VLM)의 3D 공간 추론 능력을 향상시키기 위해 강화 학습(RL) 기반으로 설계된 최초의 프레임워크입니다. 하드코딩된 최적화 없이 실시간 3D 장면 생성을 가능하게 합니다. VLM의 내재된 3D 공간 추론 부족과 레이아웃 생성 작업에 대한 기존의 지도 학습 방식의 비효율성이라는 두 가지 핵심 과제를 해결합니다. 물리적 제약 조건과 렌더링된 이미지 평가를 통합하는 다중 턴 RL 기반 최적화 메커니즘을 통해 생성된 3D 레이아웃이 일관성 있고 물리적으로 타당하며 미적으로 일치하도록 합니다. 적응적이고 반복적인 추론 프로세스를 도입하여 VLM이 렌더링된 출력을 분석하고 여러 턴에 걸쳐 공간 배열을 개선하여 장면 일관성을 점진적으로 향상시킵니다. 실험적 평가는 MetaSpatial이 다양한 규모의 모델에서 공간 일관성과 형식 안정성을 크게 향상시킨다는 것을 보여줍니다. 학습 후 객체 배치는 더욱 현실적이고 정렬되고 기능적으로 일관성이 있습니다. MetaSpatial의 코드, 데이터 및 학습 파이프라인은 공개적으로 제공됩니다.