본 논문은 자율 주행에서 중요한 과제인 3D 객체 탐지를 위해 LiDAR와 카메라의 다중 모달 입력을 융합하는 새로운 방법인 BiCo-Fusion을 제안합니다. 기존의 단일 공간에서의 직접적인 융합 방식이 각 모달리티의 단점(LiDAR는 세부 의미 정보 부족, 카메라는 정확한 3D 공간 정보 부족)을 그대로 유지하는 문제점을 해결하기 위해, LiDAR의 의미 정보와 카메라의 3D 공간 정보를 상호 보완적으로 융합하는 양방향 접근 방식을 제시합니다. 이는 Voxel Enhancement Module (VEM)과 Image Enhancement Module (IEM)을 통해 각 모달리티의 강점을 보완하고, Unified Fusion (U-Fusion)을 통해 최종적으로 의미 및 공간 정보를 모두 고려한 통합 표현을 생성합니다. 실험 결과, BiCo-Fusion이 기존 방법들보다 우수한 성능을 보임을 확인했습니다.