본 논문은 멀티모달 대규모 언어 모델이 코바늘 뜨개질 분야에서 세밀하고 낮은 수준의 절차적 추론을 수행하는 능력을 평가하기 위한 벤치마크인 CrochetBench를 제시합니다. CrochetBench는 높은 수준의 설명이나 시각적 질문 응답에 초점을 맞춘 기존 벤치마크와 달리, 묘사에서 실행으로 초점을 전환합니다. 모델은 스티치를 인식하고, 구조적으로 적절한 지침을 선택하며, 컴파일 가능한 코바늘 뜨개질 절차를 생성해야 합니다. CrochetPARADE DSL을 중간 표현으로 채택하여 구조적 검증과 기능적 평가를 가능하게 합니다. 벤치마크는 스티치 분류, 지침 기반 및 자연어-DSL, 이미지-DSL 변환을 포함하는 작업을 다룹니다.