본 논문은 개방형 어휘 로봇 조작 시스템을 개발하기 위해 역동성 학습과 키포인트를 통한 시각적 프롬프팅을 통합한 KUDA 시스템을 제안합니다. KUDA는 거대 언어 모델(LLM)과 비전-언어 모델(VLM)을 활용하여 언어 명령어와 시각적 관찰을 통해 키포인트를 RGB 이미지에 할당하고, VLM을 이용하여 목표 사양을 생성합니다. 이후, 이러한 추상적인 키포인트 기반 표현을 비용 함수로 변환하여 학습된 역동성 모델을 이용해 로봇 궤적을 생성합니다. 다양한 객체 범주에 걸친 자유 형식 언어 명령어, 다중 객체 상호 작용, 변형 가능하거나 과립형 객체를 포함한 다양한 조작 작업에 대해 KUDA를 평가하여 프레임워크의 효과를 보여줍니다.