Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CrochetBench: Can Vision-Language Models Move from Describing to Doing in Crochet Domain?

Created by
  • Haebom
Category
Empty

저자

Peiyu Li, Xiaobao Huang, Nitesh V. Chawla

개요

본 논문은 멀티모달 대규모 언어 모델이 코바늘 뜨개질 분야에서 세밀하고 낮은 수준의 절차적 추론을 수행하는 능력을 평가하기 위한 벤치마크인 CrochetBench를 제시합니다. CrochetBench는 높은 수준의 설명이나 시각적 질문 응답에 초점을 맞춘 기존 벤치마크와 달리, 묘사에서 실행으로 초점을 전환합니다. 모델은 스티치를 인식하고, 구조적으로 적절한 지침을 선택하며, 컴파일 가능한 코바늘 뜨개질 절차를 생성해야 합니다. CrochetPARADE DSL을 중간 표현으로 채택하여 구조적 검증과 기능적 평가를 가능하게 합니다. 벤치마크는 스티치 분류, 지침 기반 및 자연어-DSL, 이미지-DSL 변환을 포함하는 작업을 다룹니다.

시사점, 한계점

표면적 유사성에서 실행 가능성 정확성으로 평가가 전환됨에 따라 모든 작업에서 성능이 급격히 감소합니다.
장기적인 기호 추론과 3D 인식 절차적 합성에 대한 제한 사항이 드러났습니다.
CrochetBench는 멀티모달 모델의 절차적 역량을 평가하는 새로운 시각을 제공합니다.
실제 창의적 영역에서 표면적 이해와 실행 가능 정밀도 간의 격차를 강조합니다.
👍