CAD-Coder: An Open-Source Vision-Language Model for Computer-Aided Design Code Generation
Created by
Haebom
저자
Anna C. Doris, Md Ferdous Alam, Amin Heyrani Nobari, Faez Ahmed
개요
본 논문은 효율적이고 정확하며 편집 가능한 3D CAD 모델 생성을 위한 새로운 비전-언어 모델(VLM)인 CAD-Coder를 소개합니다. 기존 수동 작업 방식의 시간 소모 및 전문성 요구 문제를 해결하기 위해, 163,000개 이상의 CAD 모델 이미지와 코드 쌍으로 구성된 새로운 데이터셋 GenCAD-Code를 활용하여 CadQuery Python 코드를 직접 생성하도록 VLM을 미세 조정했습니다. CAD-Coder는 GPT-4.5 및 Qwen2.5-VL-72B와 같은 최첨단 VLM 기준 모델보다 우수한 성능을 보이며, 100%의 유효한 구문율과 3D 솔리드 유사성에서 가장 높은 정확도를 달성했습니다. 또한, 미세 조정 과정에서 보지 못한 CAD 작업을 성공적으로 생성하고 실제 이미지에서도 CAD 코드 생성이 가능함을 보여주는 일반화 능력을 일부 보여주었습니다. CAD-Coder는 https://github.com/anniedoris/CAD-Coder 에서 공개적으로 이용 가능합니다.