Sign In

DINO-YOLO: Self-Supervised Pre-training for Data-Efficient Object Detection in Civil Engineering Applications

Created by
  • Haebom
Category
Empty

저자

Malaisree P, Youwai S, Kitkobsin T, Janrungautai S, Amorndechaphon D, Rojanavasu P

개요

본 논문은 전문 분야에서 제한된 양의 주석 처리된 데이터로 인해 어려움을 겪는 토목 공학 분야의 객체 감지를 위해 DINOv3 자체 지도 시각 변환기를 YOLOv12와 결합한 하이브리드 아키텍처 DINO-YOLO를 제안합니다. DINOv3 특징은 입력 사전 처리(P0)와 중간 백본 강화(P3)에 전략적으로 통합되었습니다. 실험 결과, 터널 세그먼트 균열 감지에서 12.4%, 건설 PPE에서 13.7%, KITTI 데이터셋에서 88.6%의 성능 향상을 보였으며, 실시간 추론 속도(30-47 FPS)를 유지했습니다. 다양한 YOLO 스케일과 DINOv3 변형에 대한 체계적인 제거 연구를 통해, 중간 규모 아키텍처는 DualP0P3 통합으로 최적의 성능을 달성했으며(55.77% mAP@0.5), 소규모 아키텍처는 Triple 통합이 필요함을 확인했습니다. 2-4배의 추론 오버헤드(21-33ms vs 8-16ms)는 NVIDIA RTX 5090에서 현장 배포에 적합합니다. DINO-YOLO는 데이터 제약 환경에서 건설 안전 모니터링 및 인프라 검사에 대한 실용적인 솔루션을 제공합니다.

시사점, 한계점

시사점:
토목 공학 분야의 객체 감지에서 데이터 효율성을 향상시키는 새로운 아키텍처(DINO-YOLO) 제시.
YOLOv12와 DINOv3를 결합하여 성능을 향상시키고 실시간 추론을 유지함.
다양한 데이터셋(터널 균열, 건설 PPE, KITTI)에서 성능 향상을 입증.
아키텍처 스케일과 DINOv3 통합 방식에 따른 성능 변화를 분석하여 최적의 구성을 제시.
계산 효율성을 유지하면서 데이터 제약 환경에 대한 실질적인 솔루션을 제공.
한계점:
베이스라인 대비 2-4배의 추론 오버헤드가 발생함.
실험 데이터셋이 10K 이미지 미만으로 제한됨.
NVIDIA RTX 5090과 같은 특정 하드웨어에 대한 성능 평가만 이루어짐.
👍