본 논문은 비전 언어 모델(VLM)을 활용하여 사람의 시범 영상을 해석하고 로봇 작업 계획을 생성하는 새로운 방법인 SeeDo를 제안합니다. SeeDo는 키프레임 선택, 시각적 인식, VLM 추론을 통합하는 파이프라인으로, 사람의 시범 영상을 보고(See) 해당 계획을 로봇에게 설명하여 수행하게 합니다(Do). 다양한 픽앤플레이스 작업 시범 영상 데이터셋을 구축하고, 최첨단 비디오 입력 VLM 기반의 여러 기준 모델과 비교하여 SeeDo의 우수한 성능을 실험적으로 검증하였으며, 시뮬레이션 환경과 실제 로봇 팔에서 생성된 작업 계획을 배포했습니다.