본 논문은 사전 훈련 없이 임의의 핀을 보지 못한 구멍에 삽입하는 제로샷 핀 삽입 문제를 다룬다. 기존 학습 기반 방법들의 일반화 한계를 극복하기 위해, Vision-Language Model (VLM)을 활용하여 구멍을 식별하고 자세를 추정하는 새로운 프레임워크를 제시한다. VLM의 강력한 일반화 능력을 통해 다양한 핀-구멍 쌍(3D 프린팅 객체, 장난감 퍼즐, 산업용 커넥터 포함)에 대해 높은 정확도(90.2%)를 달성하며, 실제 PC 백패널 커넥터 삽입 작업에서도 88.3%의 성공률을 보였다. 이는 VLM 기반 제로샷 추론의 로봇 조립 분야 적용 가능성을 보여준다.