본 논문은 로보틱스와 게임 분야에서 중요한 고품질, 다양한 출력과 일관된 3D 표현을 생성하는 이미지 기반 3D 생성 방법을 제안합니다. 기존의 3D 확산 모델은 데이터셋 부족과 강력한 사전 훈련된 prior의 부재로 인해 한계를 가지고 있으며, 2D 확산 기반 접근 방식은 기하학적 일관성이 부족합니다. 본 논문에서는 Gaussian splatting 기반 기하학적 증류를 통해 3D 일관성을 보장하면서 2D 확산 모델의 암시적 3D 추론 능력을 활용하는 방법을 제시합니다. 특히, 제안된 Gaussian Splatting Decoder는 SV3D 잠재 출력을 명시적인 3D 표현으로 변환하여 3D 일관성을 강화합니다. 비디오 생성에 암시적인 2D 표현만 사용하는 SV3D와 달리, Gaussian Splatting은 공간 및 외관 속성을 명시적으로 인코딩하여 기하학적 제약을 통해 다중 뷰 일관성을 가능하게 합니다. 이러한 제약 조건은 뷰 불일치를 수정하여 강력한 기하학적 일관성을 보장합니다. 결과적으로, 본 연구의 접근 방식은 고품질의 다중 뷰 일관성 이미지와 정확한 3D 모델을 동시에 생성하여 단일 이미지 기반 3D 생성에 대한 확장 가능한 솔루션을 제공하고 2D 확산의 다양성과 3D 구조적 응집성 사이의 간극을 해소합니다. 실험 결과는 다양한 데이터셋에서 최첨단의 다중 뷰 일관성과 강력한 일반화 성능을 보여줍니다.