본 논문은 전문 분야에서 제한된 양의 주석 처리된 데이터로 인해 어려움을 겪는 토목 공학 분야의 객체 감지를 위해 DINOv3 자체 지도 시각 변환기를 YOLOv12와 결합한 하이브리드 아키텍처 DINO-YOLO를 제안합니다. DINOv3 특징은 입력 사전 처리(P0)와 중간 백본 강화(P3)에 전략적으로 통합되었습니다. 실험 결과, 터널 세그먼트 균열 감지에서 12.4%, 건설 PPE에서 13.7%, KITTI 데이터셋에서 88.6%의 성능 향상을 보였으며, 실시간 추론 속도(30-47 FPS)를 유지했습니다. 다양한 YOLO 스케일과 DINOv3 변형에 대한 체계적인 제거 연구를 통해, 중간 규모 아키텍처는 DualP0P3 통합으로 최적의 성능을 달성했으며(55.77% mAP@0.5), 소규모 아키텍처는 Triple 통합이 필요함을 확인했습니다. 2-4배의 추론 오버헤드(21-33ms vs 8-16ms)는 NVIDIA RTX 5090에서 현장 배포에 적합합니다. DINO-YOLO는 데이터 제약 환경에서 건설 안전 모니터링 및 인프라 검사에 대한 실용적인 솔루션을 제공합니다.
시사점, 한계점
•
시사점:
◦
토목 공학 분야의 객체 감지에서 데이터 효율성을 향상시키는 새로운 아키텍처(DINO-YOLO) 제시.
◦
YOLOv12와 DINOv3를 결합하여 성능을 향상시키고 실시간 추론을 유지함.
◦
다양한 데이터셋(터널 균열, 건설 PPE, KITTI)에서 성능 향상을 입증.
◦
아키텍처 스케일과 DINOv3 통합 방식에 따른 성능 변화를 분석하여 최적의 구성을 제시.