본 논문은 로봇 조작을 위한 최초의 대규모 3D 기반 정책 모델인 FP3를 소개한다. FP3는 확장 가능한 확산 트랜스포머 아키텍처를 기반으로 하며, 포인트 클라우드 관측치를 사용하여 60,000개의 궤적에 대해 사전 훈련되었다. 기존의 로봇 기반 모델들이 2D 이미지 관측에만 의존하는 것과 달리, FP3는 3D 기하 정보를 활용하여 로봇이 3D 세계를 인지하고 추론하는 데 필수적인 정보를 처리한다. 모델 설계와 다양한 사전 훈련 데이터를 통해 FP3는 하위 작업에 대해 효율적으로 미세 조정될 수 있으며 강력한 일반화 능력을 보여준다. 실제 로봇에서의 실험 결과, FP3는 단 80개의 시범만으로도 새로운 환경에서 보지 못한 물체를 가지고 새로운 작업을 90% 이상의 성공률로 학습할 수 있음을 보여주었으며, 이는 기존의 로봇 기반 모델을 크게 능가하는 결과이다.