본 논문은 다중 모달 3D 객체 탐지에서 2D 이미지와 3D 포인트 클라우드로부터 추출된 특징 간의 크기 및 공간 정보 불일치 문제를 해결하기 위해 새로운 모델인 SSLFusion을 제안합니다. SSLFusion은 크기 정렬 융합 전략(SAF), 3D-to-2D 공간 정렬 모듈(SAM), 잠재적 다중 모달 융합 모듈(LFM)의 세 가지 주요 구성 요소로 이루어져 있습니다. SAF는 다양한 수준에서 이미지와 포인트 클라우드의 특징을 집계하여 크기 불일치를 완화하고, SAM은 3D 좌표 정보를 2D 이미지 특징에 통합하여 모달 간 차이를 줄입니다. 마지막으로 LFM은 QKV 기반 어텐션 연산 없이 잠재 공간에서 다중 모달 비국소 컨텍스트를 포착하여 계산 복잡도를 줄입니다. KITTI와 DENSE 데이터셋 실험 결과, SSLFusion은 최첨단 방법들을 능가하며, KITTI 테스트셋의 moderate 레벨에서 최첨단 방법인 GraphAlign보다 3D AP에서 2.15%의 절대적인 성능 향상을 달성했습니다.