본 논문은 도구 기반 UI 디자인에 대한 비전 언어 모델(VLM)의 능력을 평가하기 위한 벤치마크 CANVAS를 소개합니다. 이 벤치마크는 598개의 도구 기반 디자인 작업을 포함하며, 디자인 복제 및 수정 두 가지 유형의 작업을 평가합니다. CANVAS는 3.3K 모바일 UI 디자인에서 추출된 30개의 기능 기반 범주(예: 온보딩, 메시징)를 기반으로 합니다. 결과는 선도적인 모델이 전략적인 도구 호출을 통해 디자인 품질을 향상시킬 수 있음을 보여줍니다. 또한 모델이 나타내는 일반적인 오류 패턴을 파악하여 향후 도구 기반 디자인 능력을 향상시키는 데 기여합니다.