En este artículo, proponemos un marco integrado llamado HeCoFuse para abordar los desafíos de los sistemas de percepción cooperativa de vehículo a todo (V2X) del mundo real que operan en configuraciones de sensores heterogéneas. HeCoFuse está diseñado para la percepción cooperativa en diversas configuraciones de sensores, incluyendo nodos que utilizan tanto cámaras (C) como lidars (L). Introducimos un mecanismo de fusión jerárquica que pondera adaptativamente las características mediante una combinación de atención espacial y por canal para abordar problemas como la desalineación y la calidad de representación desequilibrada de las características multimodales. Además, empleamos un módulo de ajuste adaptativo de la resolución espacial para equilibrar el coste computacional y la eficiencia de la fusión. Para mejorar la robustez frente a diversas configuraciones, implementamos una estrategia de aprendizaje colaborativo que ajusta dinámicamente el tipo de fusión en función de las modalidades disponibles. Los resultados experimentales del conjunto de datos TUMTraf-V2X en condiciones reales muestran que HeCoFuse alcanza un 43,22 % de mAP 3D para todas las configuraciones de sensor (LC+LC), superando el valor de referencia de CoopDet3D en un 1,17 %, y alcanza un 43,38 % de mAP 3D en el escenario L+LC. También ocupa el primer puesto en el desafío DriveX de CVPR 2025, manteniendo entre el 21,74 % y el 43,38 % de mAP 3D en nueve configuraciones de sensor heterogéneas.