본 논문은 도구 기반 UI 디자인에 대한 VLMs(Vision Language Models)의 능력을 평가하기 위한 벤치마크 CANVAS를 소개합니다. CANVAS는 598개의 도구 기반 디자인 작업을 포함하며, 30가지 기능 기반 범주에서 3.3K개의 모바일 UI 디자인을 기반으로 합니다. 벤치마크는 디자인 복제 및 수정의 두 가지 유형의 작업을 포함하며, VLM이 디자인 소프트웨어에서 컨텍스트 기반 도구 호출을 통해 UI를 단계별로 업데이트하도록 합니다. 연구 결과는 선도적인 모델이 더 전략적인 도구 호출을 수행하여 디자인 품질을 향상시킨다는 것을 보여주며, 모델의 일반적인 오류 패턴을 식별하여 향후 연구 방향을 제시합니다.