본 논문은 엔지니어링 디자인 분야에서 심층 생성 모델(DGMs)을 활용하기 위한 데이터셋 GeoBiked를 제시하고, 대규모 기초 모델을 활용하여 데이터 라벨링을 자동화하는 방법을 제안합니다. GeoBiked는 구조적 및 기술적 특징이 주석된 4,355개의 자전거 이미지를 포함하며, 두 가지 자동 라벨링 기법을 연구하는 데 사용됩니다. 첫 번째 기법은 이미지 생성 모델의 통합된 잠재 특징(Hyperfeatures)을 활용하여 구조 이미지에서 기하학적 대응 관계(예: 바퀴 중심 위치)를 탐지하는 것이고, 두 번째 기법은 구조 이미지에 대한 다양한 텍스트 설명을 생성하는 것입니다. Vision-Language-Model(VLM)인 GPT-4o를 사용하여 이미지를 분석하고 시스템 프롬프트에 맞는 다양한 설명을 생성합니다. Diffusion-Hyperfeatures로 기술 이미지를 표현함으로써 이미지 간의 기하학적 대응 관계를 파악할 수 있으며, 여러 개의 주석이 달린 소스 이미지를 제시함으로써 보이지 않는 샘플에서 기하학적 점의 탐지 정확도를 향상시킬 수 있습니다. GPT-4o는 기술 이미지에 대한 정확한 설명을 생성하는 데 충분한 기능을 가지고 있으며, 이미지만을 기반으로 생성하면 다양한 설명이 생성되지만 환각이 발생할 수 있고, 범주형 레이블을 기반으로 생성하면 다양성이 제한됩니다. 따라서 이미지와 범주형 레이블을 모두 입력으로 사용하면 창의성과 정확성의 균형을 맞출 수 있습니다. Hyperfeatures를 기하학적 대응 관계에 성공적으로 사용한 것은 이 방법을 기술 이미지의 일반적인 점 탐지 및 주석 작업에 사용할 수 있음을 시사합니다. VLM을 사용하여 텍스트 설명으로 이미지에 라벨을 지정하는 것이 가능하지만, 모델의 탐지 기능, 신중한 프롬프트 엔지니어링 및 입력 정보 선택에 따라 달라집니다. 본 논문은 엔지니어링 디자인 분야에서 기초 모델의 적용을 탐구하고, 이 분야에서 DGM의 학습, 미세 조정 및 조건화를 탐구하고 기초 모델을 부트스트랩하여 기술 이미지를 처리하는 방법을 제안하기 위한 데이터셋을 제공함으로써 이 분야의 격차를 해소하고자 합니다.