LTM3D는 확산 모델과 자기회귀 모델의 장점을 통합한 조건부 3D 형태 생성을 위한 잠재 토큰 공간 모델링 프레임워크입니다. 확산 모델의 연속적인 잠재 공간 모델링 능력과 자기회귀 모델의 토큰 간 의존성 포착 능력을 결합하여 3D 형태 생성의 어려움을 해결합니다. 마스크된 오토인코더와 확산 모델을 활용한 조건부 분포 모델링 백본과, 조건 토큰과 형태 잠재 토큰을 정렬하는 Prefix Learning을 통해 다양한 모달리티에 대한 유연성을 향상시킵니다. 또한, 잠재 토큰 재구성 모듈과 재구성 가이드 샘플링을 통해 불확실성을 줄이고 생성된 형태의 구조적 정확도를 높입니다. 부호화된 거리장, 점 구름, 메시, 3D 가우시안 스플래팅 등 다양한 3D 표현을 지원하며, 이미지 및 텍스트 조건부 형태 생성 작업에서 기존 방법보다 프롬프트 충실도와 구조적 정확도가 우수함을 실험적으로 보여줍니다.