Este artículo presenta un conjunto de datos a gran escala y un novedoso marco de fusión de características multimodales para mejorar la precisión de la predicción de supervivencia en pacientes con cáncer de pulmón de células no pequeñas (CPNM) que reciben terapia con inhibidores de puntos de control inmunitarios (ICI). El conjunto de datos a gran escala consta de imágenes de TC 3D, registros clínicos, datos de supervivencia libre de progresión (SLP) y supervivencia global (SG) de pacientes con CPNM. El marco propuesto utiliza un enfoque de aprendizaje de máscaras entre modalidades que consta de dos ramas, cada una adaptada a una modalidad específica: un Transformador de Profundidad de Corte para imágenes de TC y un Transformador basado en Gráficos para variables clínicas. La estrategia de aprendizaje de modalidad enmascarada reconstruye los componentes faltantes utilizando la modalidad intacta, mejorando la integración de características específicas de la modalidad y promoviendo relaciones intermodales efectivas e interacciones de características. Esto demuestra el rendimiento de la fusión multimodal para la predicción de supervivencia del CPNM que supera los métodos existentes y establece un nuevo punto de referencia.