본 논문은 Vision Language Action 모델(VLA)의 일반화 강점과 3D-aware 정책의 견고함을 결합한 새로운 아키텍처 및 학습 프레임워크인 OG-VLA를 소개한다. 자연어 지시와 하나 이상의 RGBD 관찰을 준정적 로봇 동작에 매핑하는 문제를 해결한다. OG-VLA는 언어 및 비전 기반 모델에 내장된 사전 지식을 활용하여 3D 인식 키프레임 정책의 일반화를 개선한다. 입력 관찰을 점 구름으로 투영하고, 정규 직교 뷰에서 렌더링하여 입력 뷰 불변성과 입력 및 출력 공간 간의 일관성을 보장한다. 이러한 정규 뷰는 비전 백본, 대규모 언어 모델(LLM) 및 이미지 확산 모델을 사용하여 처리되어, 최종 이펙터의 다음 위치와 방향을 인코딩하는 이미지를 생성한다.