DINO-MX는 DINO, DINOv2, DINOv3의 핵심 원리를 통합한 모듈형 및 확장 가능한 훈련 프레임워크입니다. 다양한 변환기 기반 아키텍처를 지원하며 Hugging Face 생태계와 완벽하게 호환됩니다. LoRA, 레이어 고정, 지식 증류를 포함한 여러 훈련 전략을 제공하며, 분산 데이터 병렬(DDP) 및 완전 셰딩 데이터 병렬(FSDP)을 통한 분산 훈련을 지원합니다. 단일 채널 및 다중 채널 이미지를 포함한 자연 및 특수 데이터 유형 모두에서 작동하도록 설계되었습니다. 다양한 데이터 세트에 대한 실험 결과는 DINO-MX가 경쟁력 있는 성능을 달성하면서 계산 비용을 크게 줄인다는 것을 보여줍니다. 또한, 추가 감지 또는 분할 헤드 없이 어텐션 기반 로컬라이제이션을 개선하는 해석 도구와 레이블 기반 데이터 증강 방법을 제공합니다.