인터넷 규모의 데이터로 학습된 대형 비전 모델은 복잡하고 혼잡한 장면에서도 객체 부분을 분할하고 의미적으로 이해하는 데 강점을 보입니다. 그러나 이러한 모델은 로봇을 객체의 일반적인 영역으로 안내할 수 있지만, 정교한 로봇 손으로 3D 그립을 정밀하게 제어하는 데 필요한 기하학적 이해가 부족합니다. 본 연구는 시뮬레이션과 힘-폐쇄 그립 생성 파이프라인을 활용하여 이러한 문제를 해결합니다. 이 파이프라인은 장면 내 손과 객체의 로컬 기하학을 이해하며, 생성된 데이터를 확산 모델에 증류하여 카메라 포인트 클라우드에서 실시간으로 작동합니다. 인터넷 규모 모델의 전반적인 의미 이해와 시뮬레이션 기반의 로컬 인식 힘-폐쇄의 기하학적 정밀도를 결합하여, 수동으로 수집된 학습 데이터 없이도 높은 성능의 의미적 그립을 달성합니다.