본 논문은 이기종 센서 구성에서 동작하는 실세계 차량-사물 통신(V2X) 협력적 지각 시스템의 문제점을 해결하기 위해 HeCoFuse라는 통합 프레임워크를 제안합니다. HeCoFuse는 카메라(C)와 라이다(L)를 모두 사용하는 노드를 포함하여 다양한 센서 설정에서 협력적 지각을 위해 설계되었습니다. 채널별 및 공간적 어텐션의 조합을 통해 특징을 적응적으로 가중하는 계층적 융합 메커니즘을 도입하여 다양한 모달리티 특징의 정렬 오류 및 불균형 표현 품질과 같은 문제를 해결합니다. 또한, 계산 비용과 융합 효율성 간의 균형을 맞추기 위해 적응적 공간 해상도 조정 모듈을 사용합니다. 다양한 구성에 대한 강력성을 높이기 위해 사용 가능한 모달리티에 따라 융합 유형을 동적으로 조정하는 협력적 학습 전략을 구현합니다. 실제 세계 TUMTraf-V2X 데이터셋에 대한 실험 결과, HeCoFuse는 모든 센서 구성(LC+LC)에서 43.22%의 3D mAP를 달성하여 CoopDet3D 기준 모델보다 1.17% 향상되었으며, L+LC 시나리오에서는 43.38%의 3D mAP에 도달했습니다. 9가지 이기종 센서 구성에서 21.74%~43.38%의 3D mAP를 유지하며 CVPR 2025 DriveX 챌린지에서 1위를 차지했습니다.