Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CAD-Coder: An Open-Source Vision-Language Model for Computer-Aided Design Code Generation

Created by
  • Haebom

저자

Anna C. Doris, Md Ferdous Alam, Amin Heyrani Nobari, Faez Ahmed

개요

본 논문은 효율적이고 정확하며 편집 가능한 3D CAD 모델 생성을 위한 새로운 비전-언어 모델(VLM)인 CAD-Coder를 소개합니다. 기존 수동 작업 방식의 시간 소모 및 전문성 요구 문제를 해결하기 위해, 163,000개 이상의 CAD 모델 이미지와 코드 쌍으로 구성된 새로운 데이터셋 GenCAD-Code를 활용하여 CadQuery Python 코드를 직접 생성하도록 VLM을 미세 조정했습니다. CAD-Coder는 GPT-4.5 및 Qwen2.5-VL-72B와 같은 최첨단 VLM 기준 모델보다 우수한 성능을 보이며, 100%의 유효한 구문율과 3D 솔리드 유사성에서 가장 높은 정확도를 달성했습니다. 또한, 미세 조정 과정에서 보지 못한 CAD 작업을 성공적으로 생성하고 실제 이미지에서도 CAD 코드 생성이 가능함을 보여주는 일반화 능력을 일부 보여주었습니다. CAD-Coder는 https://github.com/anniedoris/CAD-Coder 에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
비전-언어 모델을 활용하여 CAD 모델 생성 작업을 자동화하고 효율성을 높일 수 있음을 보여줌.
실제 이미지를 입력으로 사용하여 CAD 코드를 생성할 수 있는 일반화 능력을 일부 보임.
오픈소스로 공개되어 엔지니어 및 디자이너들의 CAD 작업 프로세스 개선에 기여할 수 있음.
높은 정확도와 유효한 구문율을 달성함.
한계점:
일부 이미지에 대한 일반화 능력은 완벽하지 않을 수 있음 (일부만 성공적으로 생성했다는 점에서 한계를 시사).
데이터셋 GenCAD-Code의 규모 및 다양성에 따라 성능이 제한될 수 있음.
더욱 복잡하고 다양한 CAD 작업에 대한 일반화 능력 향상이 필요함.
👍