본 논문은 웹 규모 데이터셋에서 우수한 성능을 보이는 Vision-Language Model (VLM)의 실세계 적용 시 도메인 변화에 대한 강건성을 평가한 연구이다. 실제 도구(다양한 재질)와 3D 프린팅 도구(단일 재질) 두 가지 객체 집합을 사용하여 단일 뷰 객체 캡션 생성 작업에서 VLM의 성능을 비교 분석했다. 3D 프린팅 도구는 질감과 재질 특성에서 상당한 도메인 변화를 야기하여 모델의 일반화 능력을 평가하는 데 사용되었다. 실험 결과, 모든 VLM에서 3D 프린팅 도구에 대한 캡션 생성 정확도가 실제 도구에 비해 현저히 저하되는 것을 확인했다. 이는 현재 모델이 표면적 특징을 넘어 일반화하는 능력의 한계를 보여주며, 실세계 신호 처리 애플리케이션을 위한 더욱 강건한 아키텍처의 필요성을 강조한다.